日日干日日摸-日日干天天操-日日干天天草-日日干天天插-精品一区二区三区在线观看-精品一区二区三区在线观看l

437bwin必贏國(guó)際官網(wǎng)(集團(tuán))有限公司-SouG百科

學(xué)術(shù)報(bào)告:從視頻、文本到智能體策略學(xué)習(xí)

發(fā)布時(shí)間:2023-06-14     瀏覽量:

報(bào)告題目:從視頻、文本到智能體策略學(xué)習(xí)

報(bào)告時(shí)間:2023616上午9:30

報(bào)告地點(diǎn):437bwin必贏國(guó)際官網(wǎng)B405

報(bào)告人:盧宗青

報(bào)告人國(guó)籍:中國(guó)

報(bào)告人單位:北京大學(xué)

 

 

報(bào)告人簡(jiǎn)介:北京大學(xué)437bwin必贏國(guó)際官網(wǎng)助理教授、博雅青年學(xué)者,國(guó)家海外高層次青年人才,智源學(xué)者,北京智源人工智能研究院多模態(tài)交互研究中心負(fù)責(zé)人。主要研究強(qiáng)化學(xué)習(xí)以及開(kāi)放世界通用智能體。https://z0ngqing.github.io/

報(bào)告摘要過(guò)去幾年強(qiáng)化學(xué)習(xí)研究取得了突破性成果,然而強(qiáng)化學(xué)習(xí)仍然面臨諸多挑戰(zhàn),比如樣本效率低、難解決長(zhǎng)程稀疏獎(jiǎng)勵(lì)任務(wù)、策略缺乏泛化性等問(wèn)題,使得強(qiáng)化學(xué)習(xí)難以廣泛應(yīng)用。最近大模型的成功為解決強(qiáng)化學(xué)習(xí)的這些問(wèn)題提供了新的思路。這次報(bào)告將介紹利用視頻與文本幫助智能體策略學(xué)習(xí)的一些探索以及如何在“我的世界(Minecraft)”中訓(xùn)練可以完成復(fù)雜多樣任務(wù)的通用智能體的方法。強(qiáng)化學(xué)習(xí)與大模型的結(jié)合有可能實(shí)現(xiàn) Daniel Kahneman 所描述的 System1/2 人類決策模型。

邀請(qǐng)人:羅勇