日日干日日摸-日日干天天操-日日干天天草-日日干天天插-精品一区二区三区在线观看-精品一区二区三区在线观看l

437bwin必贏國際官網(wǎng)(集團(tuán))有限公司-SouG百科

437bwin必贏國際官網(wǎng)“圖靈”前沿技術(shù)報(bào)告(第五期)

發(fā)布時(shí)間:2025-03-18     瀏覽量:

報(bào)告題目:從視聽角度看多模態(tài)學(xué)習(xí)

報(bào)告時(shí)間:2025320日上午11:00

報(bào)告地點(diǎn):437bwin必贏國際官網(wǎng)B404會(huì)議室

報(bào)告人:孫超

報(bào)告人單位:437bwin必贏國際官網(wǎng)

報(bào)告人簡介:437bwin必贏國際官網(wǎng)博士后,研究領(lǐng)域涵蓋計(jì)算機(jī)視覺、多模態(tài)學(xué)習(xí)、視頻理解等。參與科技部國家重點(diǎn)研發(fā)計(jì)劃、國家基金科學(xué)基金委、衛(wèi)健委國家科技重大專項(xiàng)等多項(xiàng)項(xiàng)目。發(fā)表論文10篇,其中在CCF-A類/SCI一區(qū)會(huì)議/期刊上發(fā)表相關(guān)研究成果4篇(包括ACM MM Oral、TMM等)。

報(bào)告摘要在大數(shù)據(jù)時(shí)代,承載更多視角信息的多模態(tài)數(shù)據(jù)得到廣泛關(guān)注,多模態(tài)機(jī)器學(xué)習(xí)以其模型通用性高、功能拓展性強(qiáng)的優(yōu)勢,將推動(dòng)人工智能技術(shù)由智能感知向智能認(rèn)知的飛躍發(fā)展。數(shù)據(jù)的多種模態(tài)中,視聽模態(tài)之間天然的互補(bǔ)關(guān)系增強(qiáng)了人類對(duì)場景、行為、情感等高層語義事件的理解。因此,如何利用同質(zhì)異構(gòu)的視頻數(shù)據(jù)和音頻數(shù)據(jù)之間的語義耦合關(guān)聯(lián),解決單模態(tài)數(shù)據(jù)推理中信息載量匱乏的瓶頸問題,并在視聽語義表征基礎(chǔ)上執(zhí)行高層語義事件的推理任務(wù),是當(dāng)下的一個(gè)研究熱點(diǎn)。結(jié)合多模態(tài)大語言模型(MLLMs)的爆發(fā)式發(fā)展,報(bào)告進(jìn)一步探討了基于視覺-語言預(yù)訓(xùn)練模型(VLM)的視聽協(xié)同表征與推理技術(shù)在開放場景理解中的應(yīng)用潛力。在應(yīng)用層面,多模態(tài)學(xué)習(xí)通過跨模態(tài)知識(shí)遷移、聯(lián)邦學(xué)習(xí)等技術(shù),提升了醫(yī)學(xué)診斷水平,為解決實(shí)際場景中人工成本高、經(jīng)驗(yàn)依賴高等問題提供了新途徑。