IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席!

極市導(dǎo)讀
?日前,第29屆ACM國際多媒體頂級會議已于10月20日至24日在成都舉辦.會上,IEEE Fellow、京東集團(tuán)副總裁梅濤當(dāng)選ACM Multimedia 2023大會共同主席(General Co-Chair)。?>>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿

最佳Demo獎:ViDA-MAN: Visual Dialog with Digital Humans
貢獻(xiàn):展示了一個完整的多模態(tài)數(shù)字人系統(tǒng),包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。
最佳開源獎:X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics
貢獻(xiàn):跨模態(tài)分析的多功能和高性能的代碼庫,統(tǒng)一了最先進(jìn)的視覺語言技術(shù)中的全面的高質(zhì)量模塊。
過去十年多媒體領(lǐng)域視覺和語言之間的跨模態(tài)分析出現(xiàn)了穩(wěn)定創(chuàng)新和突破的勢頭。然而,X-modaler出現(xiàn)之前,還沒有一個開源的代碼庫來支持以統(tǒng)一和模塊化的方式訓(xùn)練和部署眾多的跨模態(tài)分析的神經(jīng)網(wǎng)絡(luò)模型。京東探索研究院AI團(tuán)隊模態(tài)視覺分析代碼庫X-modaler是業(yè)界首個模塊化、標(biāo)準(zhǔn)化的跨模態(tài)視覺分析代碼庫,涵蓋了視覺語言領(lǐng)域各種前沿技術(shù),并支持各種多模態(tài)任務(wù)。它可以輕松復(fù)現(xiàn)視覺語言領(lǐng)域目前主流的技術(shù),促進(jìn)學(xué)術(shù)界在視覺語言領(lǐng)域的發(fā)展。同時也便于工業(yè)界集成跨模態(tài)視覺分析的模塊,推動技術(shù)進(jìn)步。


基于這七大模塊,X-modaler就可以輕松支持各種多模態(tài)任務(wù),如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval,同時也能很好地復(fù)現(xiàn)每個多模態(tài)任務(wù)中的前沿技術(shù),例如在image captioning的任務(wù)中X-modaler集成了京東AI團(tuán)隊從ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代碼庫支持的算法如下圖,后續(xù)將不斷加入更多最新技術(shù)的實現(xiàn),整個代碼庫包括使用文檔以及預(yù)訓(xùn)練模型均已開源(https://github.com/YehLi/xmodaler)。

在傳統(tǒng)的AI認(rèn)知中,視覺領(lǐng)域、語音領(lǐng)域、自然語言領(lǐng)域等領(lǐng)域之前是獨(dú)立演進(jìn)的技術(shù)和應(yīng)用,可以認(rèn)為是單模態(tài)技術(shù),而人是一個看、聽、說多模態(tài)共同工作的智能體,所以多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。
京東探索研究院多模態(tài)交互數(shù)字人技術(shù)ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng),深入多模態(tài)交互技術(shù)研究,專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造。基于該技術(shù)開發(fā)的多模態(tài)交互數(shù)字人形象引擎,能夠提供快速的形象定制能力,從外觀的數(shù)字化逐漸深入到行為的交互化、情緒的智能化。

ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng),深入多模態(tài)交互技術(shù)研究,專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造。基于現(xiàn)有的人機(jī)對話技術(shù),創(chuàng)新性研究類人風(fēng)格的虛擬形象生成技術(shù),深度融合計算機(jī)視覺、自然語言與語音等多項AI技術(shù),結(jié)合泛文娛和智能客服場景,提供真人虛擬形象的新型擬人式交互新體驗(項目主頁:https://ascust.github.io/vidaman/)。
獲獎?wù)撐恼故玖艘粋€完整的多模態(tài)數(shù)字人系統(tǒng),包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。先進(jìn)的ASR技術(shù)與基于多音色融合的TTS技術(shù)使數(shù)字人具備了出色聽以及說的能力;基于多技能、多回合的對話系統(tǒng)使數(shù)字人具備了多樣性的應(yīng)答能力。基于3D重構(gòu)技術(shù)以及神經(jīng)渲染技術(shù)的視覺模塊使數(shù)字人具備了逼真的外表以及自然的動作。同時流式服務(wù)模塊將音視頻整合,讓系統(tǒng)具備低延遲的實時交互能力。各模塊并非獨(dú)立運(yùn)作,而是有機(jī)整合在一起,使得各模態(tài)數(shù)據(jù)真正實現(xiàn)融合。
數(shù)字浪潮的推動讓人工智能技術(shù)已經(jīng)實現(xiàn)從不可用到可用,AI產(chǎn)品化時期,諸如智能語音識別技術(shù)、智能圖片處理技術(shù)、基于用戶興趣的算法引擎推薦、智能審核技術(shù)、AR/VR技術(shù)、5G技術(shù)等成為了AI落地的抓手,掀起了科技創(chuàng)新的新浪潮。梅濤表示,獲獎技術(shù)早已服務(wù)于京東云打造的虛擬數(shù)字人、拍照購、搭配購等多個產(chǎn)品,并開始在產(chǎn)業(yè)化、商業(yè)化項目中廣泛應(yīng)用。
例如,這些技術(shù)已大規(guī)模應(yīng)用于正在如火如荼展開的京東11.11。如,基于計算機(jī)視覺以圖搜圖的搜索應(yīng)用,輔助以語音對話交互技術(shù)的“拍照購”和“搭配購”功能已在剛剛拉開帷幕的京東11.11中大放異彩,通過拍照或截圖方式,直接匹配搭配好的時尚單品,打造“一站加購”、“一鍵買齊”的購物新體驗,幫助商家強(qiáng)種草、高轉(zhuǎn)化。
今年京東11.11期間,針對商品營銷內(nèi)容推出的智能寫作服務(wù)“達(dá)人寫作”,形成一篇百余字商品文案僅需300毫秒,5分鐘可以創(chuàng)作出1000篇文案,覆蓋近3000個商品品類,累計生成3,000萬AI內(nèi)容,相比于人工撰寫內(nèi)容點擊轉(zhuǎn)化率超過40%,成本降低93.2%。
除京東內(nèi)部應(yīng)用之外,這些獲得國際學(xué)術(shù)界頂尖榮譽(yù)的領(lǐng)先技術(shù)正在通過京東云這個統(tǒng)一平臺輸出對外賦能各行各業(yè)。比如,基于多模態(tài)交互數(shù)字人技術(shù)研發(fā)的“虛擬數(shù)字人”能助力京東云智能客服產(chǎn)品提升智能接待、服務(wù)和虛擬助手的體驗。比如,京東云智能客服業(yè)務(wù)與某銀行合作,打造了全國第一個交互式數(shù)字人項目“數(shù)字柜員”,有別于播報式數(shù)字人,“數(shù)字柜員”涉及VTM虛擬坐席交互,利用AI技術(shù),實現(xiàn)用虛擬人替代真人柜員辦理業(yè)務(wù)、把控風(fēng)險。

可以看到,京東AI技術(shù)之所以能取得如此優(yōu)異的成績,是其在真實復(fù)雜場景的有效實踐和千錘百煉。作為京東集團(tuán)對外技術(shù)輸出的窗口,京東云不僅是政府、企業(yè)、家庭數(shù)字化轉(zhuǎn)型全生命周期合伙人,并基于人工智能、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、區(qū)塊鏈、隱私計算等技術(shù),通過數(shù)智化全鏈條技術(shù)服務(wù),助力千行百業(yè)數(shù)字化轉(zhuǎn)型,激發(fā)產(chǎn)業(yè)無限可能。
ACM Multimedia是計算機(jī)科學(xué)領(lǐng)域中多媒體領(lǐng)域的首要國際會議,1993年以來每年召開一次,已成為多媒體領(lǐng)域頂級盛典,大會致力于推動多媒體的研究和應(yīng)用。
ACM Multimedia 2009 曾在北京舉辦,ACM Multimedia 2021 是該會議第二次在中國舉辦。
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~

#?CV技術(shù)社群邀請函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

