報告時間:4月11日13:30-17:30
報告地點(diǎn):437bwin必贏國際官網(wǎng)8樓報告廳
主持人:玄躋峰
時間 |
報告 |
主持人 |
13:35-14:10 |
特邀報告1:大語言模型與通用人工智能 報告人:葛濤(微軟亞洲研究院,高級研究員) |
彭敏教授 |
14:10-14:45 |
特邀報告2:多模態(tài)信息理解與抽取 報告人:李祖超(437bwin必贏國際官網(wǎng),副研究員) |
14:45-15:20 |
特邀報告3:面向統(tǒng)一的視覺和語言建模與學(xué)習(xí) 報告人:張拯(微軟亞洲研究院,主管研究員) |
羅勇教授 |
15:20-15:55 |
特邀報告4:多模態(tài)感知學(xué)習(xí)與內(nèi)容生成 報告人:武宇(437bwin必贏國際官網(wǎng),教授) |
16:05-16:40 |
特邀報告5:通過具有稀疏屬性的張量實現(xiàn)端到端的深度學(xué)習(xí)模型稀疏化 報告人:楊凡(微軟亞洲研究院,高級研究員) |
胡創(chuàng) 副研究員 |
16:40-17:25 |
特邀報告6:基于流水線并行的混合專家網(wǎng)絡(luò)模型預(yù)訓(xùn)練系統(tǒng) 報告人:程大釗(437bwin必贏國際官網(wǎng),教授) |
特邀報告1
報告題目:大語言模型與通用人工智能
報告人:葛濤 微軟亞洲研究院高級研究員

報告人簡介:葛濤博士,微軟亞洲研究院高級研究員,從事自然語言處理相關(guān)研究,主要的研究興趣包括生成式語言模型、模型輕量化以及高效推理等方面。他在自然語言處理和人工智能領(lǐng)域的著名會議和期刊上發(fā)表了40多篇論文,包括ACL、EMNLP、NAACL、COLING、NeurIPS、ICLR、AAAI、IJCAI等。他曾擔(dān)任AACL 2022的高級領(lǐng)域主席,以及ACL/EMNLP等頂級會議的領(lǐng)域主席和審稿人。他的研究成果已被廣泛用于微軟產(chǎn)品,包括Word、Outlook。
報告摘要:通著算力的不斷提升,語言模型的規(guī)模正以我們難以想象的速度增長并帶來能力上的大幅提升。在本次報告,我將以GPT的發(fā)展歷程來回顧大語言模型在通往通用人工智能道路上的幾個重要里程碑,以及對微軟亞洲研究院計算自然計算組在大語言模型&通用人工智能方向上的一些工作進(jìn)行介紹。
特邀報告2
報告題目:多模態(tài)信息理解與抽取
報告人:李祖超 437bwin必贏國際官網(wǎng)副研究員

報告人簡介:李祖超,437bwin必贏國際官網(wǎng)副研究員。博士畢業(yè)于上海交通大學(xué)電子信息與電氣工程學(xué)院,曾于2019年4月至2022年4月在日本國立情報與通信研究所擔(dān)任研究員。主要研究方向包括自然語言處理、多模態(tài)機(jī)器學(xué)習(xí)與建模等。他在語言理解與結(jié)構(gòu)解析、機(jī)器翻譯等領(lǐng)域上取得了多項國際領(lǐng)先競賽成果,并獲得百度學(xué)術(shù)2021年人工智能全球華人新星百強(qiáng)榮譽(yù)稱號。近五年來,他在國內(nèi)外學(xué)術(shù)期刊和頂級會議上發(fā)表了30多篇論文,其中包括7篇一作CCF A類會議/期刊文章和9篇一作CCF B類會議/期刊文章。論文在谷歌學(xué)術(shù)中的總引用次數(shù)已達(dá)1200余次。擔(dān)任BDCC期刊客座編輯以及NeurIPS、ICML、ICLR、ACL、EMNLP、AAAI、IJCAI、NLPCC、CCL、TASLP、TALLIP、TCBB等多個國際學(xué)術(shù)期刊和頂級會議的審稿人。
報告摘要:多模態(tài)信息理解與抽取旨在利用多種不同類型的信息模態(tài) (如文本、圖像、音頻等) 來理解和抽取其中的關(guān)鍵信息,以支持人工智能系統(tǒng)對于復(fù)雜任務(wù)的實現(xiàn)。隨著多媒體數(shù)據(jù)的普及和人工智能算法的發(fā)展,多模態(tài)信息理解與抽取已經(jīng)成為了一個十分重要的研究方向。本報告將從多模態(tài)信息理解與抽取角度出發(fā),具體介紹團(tuán)隊近期的一些研究成果,主要包括(1)通用理解領(lǐng)域:基于質(zhì)心建模的圖像ViT預(yù)訓(xùn)練框架CCViT;(2)文檔理解領(lǐng)域:基于結(jié)構(gòu)圖特征的多模態(tài)文檔信息抽取框架GraphLayoutLM;(3) 通用抽取領(lǐng)域:基于雙重查詢機(jī)制的多模態(tài)模糊跨度信息抽取模型MFSUIE。
特邀報告3
報告題目:面向統(tǒng)一的視覺和語言建模與學(xué)習(xí)
報告人:張拯 微軟亞洲研究院主管研究員

報告人簡介:張拯,微軟亞洲研究院視覺計算組的Senior Researcher,他的主要研究興趣是構(gòu)建通用的視覺感知系統(tǒng),其研究方向涵蓋了神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計,預(yù)訓(xùn)練算法,以及物體檢測、分割等。他是Swin Transformer,SimMIM, Relation Network和Soft Teacher等工作的主要作者之一。此外,他早期在自然場景文字檢測的工作也具有開創(chuàng)性:Symmetry-based Text detection首次提出將文字檢測建模為分割問題,MFCN則首次將全卷積網(wǎng)絡(luò)(FCN)引入文字檢測領(lǐng)域,并用于多方向文字檢測。他曾于2021年獲得Marr Prize(ICCV最佳論文獎),其Google Scholar引用超過13000。
報告摘要:人的大腦皮層擁有統(tǒng)一的結(jié)構(gòu)來實現(xiàn)各種各樣的智能,包括視覺,語音,語言等的理解和生成,人腦神經(jīng)系統(tǒng)的學(xué)習(xí)也很大程度上依賴統(tǒng)一的預(yù)測學(xué)習(xí)機(jī)制,這種統(tǒng)一的生物機(jī)制使人無需經(jīng)過費(fèi)時的生物進(jìn)化就能快速有效地適應(yīng)新的環(huán)境以及學(xué)會新的技能。在人工智能中,針對各個具體領(lǐng)域的神經(jīng)網(wǎng)絡(luò)架構(gòu)和預(yù)訓(xùn)練方法也正在經(jīng)歷走向統(tǒng)一的進(jìn)程。其中,Transformer正在成為針對不同AI問題的通用神經(jīng)網(wǎng)絡(luò)架構(gòu),包括自然語言處理、計算機(jī)視覺、語音識別、科學(xué)計算等,基于預(yù)測和生成的學(xué)習(xí)方法GPT正在證明在各種智能任務(wù)中普遍有效。本次報告將從計算機(jī)視覺的視角出發(fā)講述神經(jīng)網(wǎng)絡(luò)架構(gòu)和預(yù)訓(xùn)練方法走向統(tǒng)一的趨勢,以及相關(guān)代表性工作。報告還將具體介紹團(tuán)隊的一些研究成果,包括Swin Transformer系列,SimMIM等。
特邀報告4
報告題目: 多模態(tài)感知學(xué)習(xí)與內(nèi)容生成
報告人: 武宇 437bwin必贏國際官網(wǎng)教授

報告人簡介:武宇,教授、博士生導(dǎo)師,國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項目(海外)獲得者。2015年在上海交通大學(xué)獲得學(xué)士學(xué)位,2021年在悉尼科技大學(xué)獲得博士學(xué)位,2021-2022年在普林斯頓大學(xué)從事博士后研究。主要從事在視覺-語言理解、多模態(tài)檢索、跨模態(tài)生成等方向有所進(jìn)展。曾獲2020年谷歌博士獎研金(Google PhD Fellowship)。過去三年在計算機(jī)視覺頂級會議CVPR主辦的比賽中累計共獲得5次國際學(xué)術(shù)競賽的冠軍(包括ActivityNet、EPIC- Kitchens、YouTube-VOS等)。擔(dān)任人工智能頂會NeurIPS 2023領(lǐng)域主席,計算機(jī)視覺頂會CVPR 2023大會主要組織者、Workshop主席、領(lǐng)域主席。
報告摘要:多模態(tài)學(xué)習(xí)是深度學(xué)習(xí)領(lǐng)域當(dāng)前最火熱的研究課題之一,其目標(biāo)是對視覺、文本、音頻等多種模態(tài)數(shù)據(jù)進(jìn)行關(guān)聯(lián)、感知、定位與生成。視頻數(shù)據(jù)中天然涵蓋多種模態(tài)的信息,如何利用好多種模態(tài)信息來提升對視頻動作目標(biāo)的識別也是值得探討的研究課題。本次報告將首先介紹多模態(tài)學(xué)習(xí)的前沿進(jìn)展,包括視覺-語言特征學(xué)習(xí)、視頻-音頻關(guān)聯(lián)等重要問題,例如用有限的訓(xùn)練數(shù)據(jù)逼近大規(guī)模預(yù)訓(xùn)練模型等。報告還將帶來課題組最新的工作,包括基于擴(kuò)散模型等一系列最新的多模態(tài)模型生成架構(gòu)。
特邀報告5
報告題目:通過具有稀疏屬性的張量實現(xiàn)端到端的深度學(xué)習(xí)模型稀疏化
報告人:楊凡 微軟亞洲研究院高級研究員

報告人簡介:楊凡博士現(xiàn)任微軟亞洲研究院高級研究員,系統(tǒng)研究組負(fù)責(zé)人。他目前主要負(fù)責(zé)系統(tǒng)方向的研究戰(zhàn)略規(guī)劃,協(xié)調(diào)、管理系統(tǒng)組的研究、產(chǎn)品轉(zhuǎn)化及公司內(nèi)外的合作項目。他個人的主要研究興趣為計算機(jī)系統(tǒng),特別是大型分布式系統(tǒng)。他目前主要關(guān)注和探索由新興應(yīng)用 (如深度學(xué)習(xí)等) 所產(chǎn)生的新型計算機(jī)系統(tǒng)原理、設(shè)計和實現(xiàn)。他的多項技術(shù)成果都已開源并在微軟公司Bing、Azure、Office等部門落地,其中多項重要結(jié)果均發(fā)表在系統(tǒng)頂級會議(如OSDI)上。楊凡博士畢業(yè)于南京大學(xué)并先后獲得計算機(jī)科學(xué)學(xué)士、碩士及博士學(xué)位。
報告摘要:近年來,深度學(xué)習(xí)模型變得越來越大且更加復(fù)雜, 而深度學(xué)習(xí)模型的稀疏性是提升模型效率和規(guī)模的關(guān)鍵因素。我們提出一種新的系統(tǒng)抽象,具有稀疏屬性的張量(TeSA),來實現(xiàn)端到端的模型稀疏化。TeSA這一抽象擴(kuò)展了傳統(tǒng)的張量抽象,使得張量的稀疏屬性和稀疏模式(例如,模型剪紙和量化)能夠在整個深度學(xué)習(xí)模型中傳播。TeSA可以用于創(chuàng)建高效、專門的模型算子實現(xiàn),在實現(xiàn)中充分考慮到了各種稀疏模式在不同硬件上的執(zhí)行效率。我們基于TeSA構(gòu)建了SparTA,一個端到端的支持模型稀疏化的編譯器框架。SparTA可以容納各種稀疏模式和優(yōu)化技術(shù),在推理延遲方面比七種最先進(jìn)的稀疏方案快1.7倍至8.4倍,同時內(nèi)存占用更小。作為一個編譯框架,SparTA有助于利用最新的稀疏算法更快地探索更好的稀疏化深度學(xué)習(xí)模型。
特邀報告6
報告題目:基于流水線并行的混合專家網(wǎng)絡(luò)模型預(yù)訓(xùn)練系統(tǒng)
報告人:程大釗 437bwin必贏國際官網(wǎng)計算機(jī)學(xué)院教授、副院長

報告人簡介:程大釗教授,現(xiàn)任437bwin必贏國際官網(wǎng)副院長。主要研究方向包括云邊計算、內(nèi)存計算、人工智能、大數(shù)據(jù)平臺等分布式系統(tǒng)。在權(quán)威計算機(jī)系統(tǒng)領(lǐng)域的國際期刊和會議上發(fā)表論文40余篇(第一/通訊作者發(fā)表24篇),其中以第一/通訊作者發(fā)表高質(zhì)量論文12篇,包括了IEEE TC, TPDS, PPoPP、HPDC、INFOCOM、Middleware、IPDPS、ICDCS等。同時擔(dān)任IEEE Transactions on Industrial Informatics、Big Data Research、IEICE Transactions on Information and Systems三個學(xué)術(shù)期刊客座編委,4個國際會議的主席或?qū)n}主席,27個國際會議的技術(shù)委員會委員。
報告摘要:近年來,預(yù)訓(xùn)練大模型是深度學(xué)習(xí)發(fā)展的主流趨勢,而混合專家網(wǎng)絡(luò)(Mixture-of-Experts ,MoE)成為了增大預(yù)訓(xùn)練模型的主流技術(shù)之一。混合專家網(wǎng)絡(luò)通過動態(tài)地激活子網(wǎng)絡(luò)來實現(xiàn)條件計算,在增加神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量的同時保持計算量幾乎不變,對增大模型容量起到了至關(guān)重要的作用。然而,雖然MoE擁有著良好的拓展性,由于更多的參數(shù)和多專家的特點(diǎn),在通信和內(nèi)存上有更多的消耗。如何降低通信成本,降低GPU內(nèi)存壓力是我們面臨的新的挑戰(zhàn)。為此,我們提出了 MPipeMoE,通過自適應(yīng)的流水并行實現(xiàn)通信、計算,內(nèi)存拷貝三種運(yùn)算的并行執(zhí)行,即隱藏了通信時延,又降低了內(nèi)存拷貝延遲并降低GPU內(nèi)存消耗。相比最新的MoE訓(xùn)練加速框架(FasterMoE), 我們在執(zhí)行速度上實現(xiàn)最高2.8倍的加速。