報告題目:可泛化文本-圖像跨模態(tài)行人檢索研究
報告時間:2024年6月12日10:00-11:00
報告地點:437bwin必贏國際官網(wǎng)B404會議室
報告人:曹敏
報告人國籍:中國
報告人單位:蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院

報告人簡介:曹敏,女,副教授,碩士生導(dǎo)師,蘇州大學(xué)優(yōu)秀青年獲得者。2020年1月于中國科學(xué)院自動化研究所獲得工學(xué)博士學(xué)位,2020年3月入職蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院。目前的研究方向為視覺-語言多模態(tài)學(xué)習(xí)。在本領(lǐng)域頂級會議和期刊上發(fā)表論文20余篇(其中一作/通訊論文14篇,包括5篇CCF A會議、4篇SCI一區(qū)期刊),專利授權(quán)9項,專利受理3項,多次擔(dān)任高水平會議(ICML,NIPS、ICCV、CVPR等)審稿人。曾在德國弗勞恩霍夫研究機(jī)構(gòu)(Fraunhofer-Gesellschaft)交流學(xué)習(xí)。主持國家自然科學(xué)基金青年科學(xué)基金項目、江蘇省“雙創(chuàng)博士”人才項目、蘇州市科技計劃項目、多模態(tài)人工智能系統(tǒng)全國重點實驗室開放課題、人工智能教育部重點實驗室開放課題等。
報告摘要:文本-圖像跨模態(tài)行人檢索旨在根據(jù)行人的文本描述信息檢索目標(biāo)行人,對視頻偵查應(yīng)用至關(guān)重要。現(xiàn)有研究在公開數(shù)據(jù)集已經(jīng)取得了顯著成果,但多限于實驗性封閉環(huán)境:依賴大量標(biāo)注數(shù)據(jù)訓(xùn)練模型并在單一場景的測試數(shù)據(jù)評估。然而現(xiàn)實應(yīng)用常面臨文本數(shù)據(jù)標(biāo)注受限且應(yīng)用場景多變的挑戰(zhàn)。本報告介紹文本-圖像跨模態(tài)行人檢索相關(guān)工作,特別聚焦于現(xiàn)實應(yīng)用場景中該任務(wù)所面臨的挑戰(zhàn),分享我們在這一領(lǐng)域的初步探索。
邀請人:葉茫
