報告題目:從視聽角度看多模態學習
報告時間:2025年3月20日上午11:00
報告地點:437bwin必贏國際官網B404會議室
報告人:孫超
報告人單位:437bwin必贏國際官網

報告人簡介:437bwin必贏國際官網博士后,研究領域涵蓋計算機視覺、多模態學習、視頻理解等。參與科技部國家重點研發計劃、國家基金科學基金委、衛健委國家科技重大專項等多項項目。發表論文10篇,其中在CCF-A類/SCI一區會議/期刊上發表相關研究成果4篇(包括ACM MM Oral、TMM等)。
報告摘要:在大數據時代,承載更多視角信息的多模態數據得到廣泛關注,多模態機器學習以其模型通用性高、功能拓展性強的優勢,將推動人工智能技術由智能感知向智能認知的飛躍發展。數據的多種模態中,視聽模態之間天然的互補關系增強了人類對場景、行為、情感等高層語義事件的理解。因此,如何利用同質異構的視頻數據和音頻數據之間的語義耦合關聯,解決單模態數據推理中信息載量匱乏的瓶頸問題,并在視聽語義表征基礎上執行高層語義事件的推理任務,是當下的一個研究熱點。結合多模態大語言模型(MLLMs)的爆發式發展,報告進一步探討了基于視覺-語言預訓練模型(VLM)的視聽協同表征與推理技術在開放場景理解中的應用潛力。在應用層面,多模態學習通過跨模態知識遷移、聯邦學習等技術,提升了醫學診斷水平,為解決實際場景中人工成本高、經驗依賴高等問題提供了新途徑。
