報(bào)告題目:從視頻、文本到智能體策略學(xué)習(xí)
報(bào)告時(shí)間:2023年6月16日上午9:30
報(bào)告地點(diǎn):437bwin必贏國(guó)際官網(wǎng)B405
報(bào)告人:盧宗青
報(bào)告人國(guó)籍:中國(guó)
報(bào)告人單位:北京大學(xué)
報(bào)告人簡(jiǎn)介:北京大學(xué)437bwin必贏國(guó)際官網(wǎng)助理教授、博雅青年學(xué)者,國(guó)家海外高層次青年人才,智源學(xué)者,北京智源人工智能研究院多模態(tài)交互研究中心負(fù)責(zé)人。主要研究強(qiáng)化學(xué)習(xí)以及開(kāi)放世界通用智能體。https://z0ngqing.github.io/
報(bào)告摘要:過(guò)去幾年強(qiáng)化學(xué)習(xí)研究取得了突破性成果,然而強(qiáng)化學(xué)習(xí)仍然面臨諸多挑戰(zhàn),比如樣本效率低、難解決長(zhǎng)程稀疏獎(jiǎng)勵(lì)任務(wù)、策略缺乏泛化性等問(wèn)題,使得強(qiáng)化學(xué)習(xí)難以廣泛應(yīng)用。最近大模型的成功為解決強(qiáng)化學(xué)習(xí)的這些問(wèn)題提供了新的思路。這次報(bào)告將介紹利用視頻與文本幫助智能體策略學(xué)習(xí)的一些探索以及如何在“我的世界(Minecraft)”中訓(xùn)練可以完成復(fù)雜多樣任務(wù)的通用智能體的方法。強(qiáng)化學(xué)習(xí)與大模型的結(jié)合有可能實(shí)現(xiàn) Daniel Kahneman 所描述的 System1/2 人類決策模型。
邀請(qǐng)人:羅勇