在2016年11月結束的國際視頻分析與檢索技術評測TRECVID中,由437bwin必贏國際官網院長胡瑞敏教授所領銜的聯合團隊在實例檢索任務(Instance Search,INS)中再創佳績。團隊在30個官方規定的檢索課題中,取得平均檢索準確率(MAP)為0.758的最好成績,標志著該團隊已全面邁入國際視頻檢索領域的第一梯隊。
國際視頻分析與檢索技術評測TRECVID是由美國國家標準技術研究所(National Institute of Standards and Technology,NIST)于2001年開始組織實施的視頻檢索評測項目,至今已經連續舉辦16屆,TRECVID代表了視頻檢索領域最前沿的研究方向、最先進的技術水平。TRECVID評測采取向參評團隊發布標準測試數據,參評團隊用這些標準測試數據測試自己設計的系統,并在規定時間內向組委會提交自己系統的運行結果,然后由美國國家標準技術研究所對提交結果進行評價和比較。全球相關研究領域的高校、研究所以及商業公司等幾乎所有重要研究機構都參與了歷年的TRECVID評測,如Carnegie Mellon University、University of Oxford、AT&T Labs、Microsoft Research Asia。
今年,由437bwin必贏國際官網三名研究生(王正、楊洋、蘭佳梅)和兩名本科生(關碩森,韓晨夏)組成的NERCMS團隊,在胡瑞敏教授、陳軍教授和梁超老師指導下,與中國科學院自動化研究所王金橋研究員和武漢大千信息技術有限公司,組成聯合團隊參加TRECVID評測中的實例檢索任務(Instance Search,INS)。這是繼去年該團隊獲得佳績(平均準確率MAP為0.367)后,連續第四次參加該任務,并獲得所有參評團隊的最高檢索準確率(平均準確率0.758)。
本次實例檢索任務要求評測團隊從海量視頻數據(47萬多段視頻片斷)中檢索出某一特定人物在某一特定場景出現的視頻片段(見圖1),評測任務具有很大的挑戰性。評測團隊利用多媒體檢索、計算機視覺、機器學習等技術對視頻內容進行分析與理解,并找出官方規定的評測課題內容,找到越多越準,檢索平均準確率越高,被評測系統就越好越先進。這一任務支持用戶提出人物和場景兩方面的檢索條件,評測系統在海量視頻中找出同時滿足這兩個條件的視頻片斷。比如,用戶想從海量視頻中獲取“奧巴馬在白宮總統辦公室”的視頻,由于“奧巴馬”的衣著不一、姿態變化,找到“奧巴馬”出現的視頻已是不易,系統還需在“奧巴馬”出現的眾多類似場景中,把在“白宮總統辦公室”的那些選出來。
437bwin必贏國際官網院長胡瑞敏教授所領銜的聯合團隊在面臨檢索人物大小不一,姿態變化多,背景干擾大等情況,提出了多尺度反卷積回歸人臉檢測網絡和深度嵌入的人臉識別網絡,獲得高精度人臉識別結果;在面臨場景光照變化大、遮擋嚴重等情況,提出了基于局部視角和全局視角相融合的場景檢索方法,有效降低了場景漏檢率。在此基礎上,團隊進一步融合人類先驗知識,配合多源跨模態信息,過濾大量無人臉、戶外場景和車輛等無關信息,從而大幅減少噪聲信息源。評測主辦方美國國家標準技術研究所認為上述“系統獨特,有趣,聰明,并且極富信息量” (your system is unique, interesting, clever and ultimately informative)。
本次評測的相關技術已經運用在面向監控視頻的特定目標檢索中,幫助公安人員在海量監控視頻中排除不相關目標,關注重點目標,聚焦、觀察、分析嫌疑對象,顯著提高海量監控視頻瀏覽效率,進而對提高公安部門應急處置能力和社會治安綜合防控能力具有重要意義。相關技術成果轉化后的產品目前已在在1個省會城市,7個省的12個縣級以上單位推廣應用,取得了良好的社會效益和經濟效益。這些產品多次在實際案例中發揮了重大作用,對維護人民生命財產安全具有重大的意義。