報告題目:可泛化文本-圖像跨模態行人檢索研究
報告時間:2024年6月12日10:00-11:00
報告地點:437bwin必贏國際官網B404會議室
報告人:曹敏
報告人國籍:中國
報告人單位:蘇州大學計算機科學與技術學院

報告人簡介:曹敏,女,副教授,碩士生導師,蘇州大學優秀青年獲得者。2020年1月于中國科學院自動化研究所獲得工學博士學位,2020年3月入職蘇州大學計算機科學與技術學院。目前的研究方向為視覺-語言多模態學習。在本領域頂級會議和期刊上發表論文20余篇(其中一作/通訊論文14篇,包括5篇CCF A會議、4篇SCI一區期刊),專利授權9項,專利受理3項,多次擔任高水平會議(ICML,NIPS、ICCV、CVPR等)審稿人。曾在德國弗勞恩霍夫研究機構(Fraunhofer-Gesellschaft)交流學習。主持國家自然科學基金青年科學基金項目、江蘇省“雙創博士”人才項目、蘇州市科技計劃項目、多模態人工智能系統全國重點實驗室開放課題、人工智能教育部重點實驗室開放課題等。
報告摘要:文本-圖像跨模態行人檢索旨在根據行人的文本描述信息檢索目標行人,對視頻偵查應用至關重要。現有研究在公開數據集已經取得了顯著成果,但多限于實驗性封閉環境:依賴大量標注數據訓練模型并在單一場景的測試數據評估。然而現實應用常面臨文本數據標注受限且應用場景多變的挑戰。本報告介紹文本-圖像跨模態行人檢索相關工作,特別聚焦于現實應用場景中該任務所面臨的挑戰,分享我們在這一領域的初步探索。
邀請人:葉茫
