日日干日日摸-日日干天天操-日日干天天草-日日干天天插-精品一区二区三区在线观看-精品一区二区三区在线观看l

437bwin必贏國際官網(集團)有限公司-SouG百科

學術報告:繁而不同,大道至簡——視覺Transformer大模型及其應用

發布時間:2023-12-20     瀏覽量:

報告題目:繁而不同,大道至簡——視覺Transformer大模型及其應用

報告時間:20231221上午10:00

報告地點:437bwin必贏國際官網B404會議室

報告人:張敬

報告人國籍:中國

報告人單位:悉尼大學

報告人簡介:張敬博士,2015年畢業于中國科學技術大學自動化系,目前在悉尼大學計算機系從事博士后研究,主要從事計算機視覺與深度學習等人工智能領域的相關科學研究工作,在 CCF A類國際會議/期刊以及IEEE 匯刊等國際著名期刊已發表學術論文90余篇,谷歌學術引用6000余次。長期擔任著名國際學術期刊和會議審稿人、程序委員會委員、高級程序委員會委員及領域主席。2023年晉升為美國電氣和電子工程師協會(IEEE)高級會員。研究成果在相關比賽或者公開數據集多次名列前茅,例如Cityscapes語義分割數據集第一名、KITTI道路分割數據集第一名、COCO人體估計姿態數據集第一名、ImageNet Real圖像分類測試集第一名。所提出的ViTAE Transformer系列模型受到廣泛關注,該模型可廣泛應用于圖像分類、目標檢測、語義分割、視頻實例分割、圖像摳圖、目標跟蹤、文字檢測和識別、遙感圖像分析等多個領域,取得了非常有競爭力的結果,相關GitHub倉庫關注量超過5000。

報告摘要研究社區已經認識到大數據中蘊含著海量的知識,如何有效獲取和利用這些知識是實現更強人工智能的關鍵。近年來提出的一種新型神經網絡架構——Transformer,因其具有的很強的模型表征能力和可擴展性,使得更大的模型往往能更好地從數據中提取和利用知識,并取得更好的性能。本次報告將以我們在Transformer領域的研究工作ViTAE為例,從多個維度展示Vision Transformer“繁而不同“的特點。ViTAE已被應用于多個計算機視覺任務并取得了顯著進展,包括圖像識別、物體檢測、語義分割、圖像摳圖、姿態估計、場景文字理解和遙感影像分析等。我們將以人體姿態估計、文本檢測與識別、光流估計三個典型的計算機視覺任務為例,介紹我們在該領域的最新研究成果,重點闡述“大道至簡”的思想在計算機視覺問題建模中的價值,以及大模型“繁而不同”所帶來的改變。