在线观看国产精品自拍,亚洲高清第一页,大香蕉欧美伊人,国产无码中文字幕,日本操美女,色偷偷亚洲天堂,www.国产视频在线观看,国产精品欧美一区二区三区苍井空

↑ 點擊藍(lán)字?關(guān)注極市平臺

來源丨AI科技評論

編輯丨極市平臺

極市導(dǎo)讀

日前，第29屆ACM國際多媒體頂級會議已于10月20日至24日在成都舉辦.會上，IEEE Fellow、京東集團(tuán)副總裁梅濤當(dāng)選ACM Multimedia 2023大會共同主席（General Co-Chair）。?>>加入極市CV技術(shù)交流群，走在計算機(jī)視覺的最前沿

日前，第29屆ACM國際多媒體頂級會議（ACM International Conference on Multimedia, 簡稱ACM Multimedia）已于10月20日至24日在成都舉辦，京東探索研究院憑借跨模態(tài)分析技術(shù)、多模態(tài)交互數(shù)字人技術(shù)分別斬獲最佳開源項目獎及最佳演示獎（Demo）。會上，IEEE Fellow、京東集團(tuán)副總裁梅濤當(dāng)選ACM Multimedia 2023大會共同主席（General Co-Chair）。

最佳Demo獎：ViDA-MAN: Visual Dialog with Digital Humans

貢獻(xiàn)：展示了一個完整的多模態(tài)數(shù)字人系統(tǒng)，包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。

最佳開源獎：X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

貢獻(xiàn)：跨模態(tài)分析的多功能和高性能的代碼庫，統(tǒng)一了最先進(jìn)的視覺語言技術(shù)中的全面的高質(zhì)量模塊。

關(guān)于X-modaler和ViDA-Man

過去十年多媒體領(lǐng)域視覺和語言之間的跨模態(tài)分析出現(xiàn)了穩(wěn)定創(chuàng)新和突破的勢頭。然而，X-modaler出現(xiàn)之前，還沒有一個開源的代碼庫來支持以統(tǒng)一和模塊化的方式訓(xùn)練和部署眾多的跨模態(tài)分析的神經(jīng)網(wǎng)絡(luò)模型。京東探索研究院AI團(tuán)隊模態(tài)視覺分析代碼庫X-modaler是業(yè)界首個模塊化、標(biāo)準(zhǔn)化的跨模態(tài)視覺分析代碼庫，涵蓋了視覺語言領(lǐng)域各種前沿技術(shù)，并支持各種多模態(tài)任務(wù)。它可以輕松復(fù)現(xiàn)視覺語言領(lǐng)域目前主流的技術(shù)，促進(jìn)學(xué)術(shù)界在視覺語言領(lǐng)域的發(fā)展。同時也便于工業(yè)界集成跨模態(tài)視覺分析的模塊，推動技術(shù)進(jìn)步。

京東探索研究院跨模態(tài)視覺分析代碼庫X-modaler

系統(tǒng)化地集成了跨模態(tài)分析各大任務(wù)中最常用七大模塊（如編碼器模塊、跨模態(tài)交互模塊以及解碼器模塊等），每一個模塊也包含了各種前沿技術(shù)算法，例如跨模態(tài)交互模塊可以選擇傳統(tǒng)的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具體示意如下圖：

基于這七大模塊，X-modaler就可以輕松支持各種多模態(tài)任務(wù)，如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval，同時也能很好地復(fù)現(xiàn)每個多模態(tài)任務(wù)中的前沿技術(shù)，例如在image captioning的任務(wù)中X-modaler集成了京東AI團(tuán)隊從ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代碼庫支持的算法如下圖，后續(xù)將不斷加入更多最新技術(shù)的實現(xiàn)，整個代碼庫包括使用文檔以及預(yù)訓(xùn)練模型均已開源（https://github.com/YehLi/xmodaler）。

在傳統(tǒng)的AI認(rèn)知中，視覺領(lǐng)域、語音領(lǐng)域、自然語言領(lǐng)域等領(lǐng)域之前是獨(dú)立演進(jìn)的技術(shù)和應(yīng)用，可以認(rèn)為是單模態(tài)技術(shù)，而人是一個看、聽、說多模態(tài)共同工作的智能體，所以多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。

京東探索研究院多模態(tài)交互數(shù)字人技術(shù)ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng)，深入多模態(tài)交互技術(shù)研究，專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造。基于該技術(shù)開發(fā)的多模態(tài)交互數(shù)字人形象引擎，能夠提供快速的形象定制能力，從外觀的數(shù)字化逐漸深入到行為的交互化、情緒的智能化。

ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng)，深入多模態(tài)交互技術(shù)研究，專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造。基于現(xiàn)有的人機(jī)對話技術(shù)，創(chuàng)新性研究類人風(fēng)格的虛擬形象生成技術(shù)，深度融合計算機(jī)視覺、自然語言與語音等多項AI技術(shù)，結(jié)合泛文娛和智能客服場景，提供真人虛擬形象的新型擬人式交互新體驗（項目主頁：https://ascust.github.io/vidaman/）。

獲獎?wù)撐恼故玖艘粋€完整的多模態(tài)數(shù)字人系統(tǒng)，包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。先進(jìn)的ASR技術(shù)與基于多音色融合的TTS技術(shù)使數(shù)字人具備了出色聽以及說的能力；基于多技能、多回合的對話系統(tǒng)使數(shù)字人具備了多樣性的應(yīng)答能力。基于3D重構(gòu)技術(shù)以及神經(jīng)渲染技術(shù)的視覺模塊使數(shù)字人具備了逼真的外表以及自然的動作。同時流式服務(wù)模塊將音視頻整合，讓系統(tǒng)具備低延遲的實時交互能力。各模塊并非獨(dú)立運(yùn)作，而是有機(jī)整合在一起，使得各模態(tài)數(shù)據(jù)真正實現(xiàn)融合。

京東為什么“看中”多模態(tài)技術(shù)

數(shù)字浪潮的推動讓人工智能技術(shù)已經(jīng)實現(xiàn)從不可用到可用，AI產(chǎn)品化時期，諸如智能語音識別技術(shù)、智能圖片處理技術(shù)、基于用戶興趣的算法引擎推薦、智能審核技術(shù)、AR/VR技術(shù)、5G技術(shù)等成為了AI落地的抓手，掀起了科技創(chuàng)新的新浪潮。梅濤表示，獲獎技術(shù)早已服務(wù)于京東云打造的虛擬數(shù)字人、拍照購、搭配購等多個產(chǎn)品，并開始在產(chǎn)業(yè)化、商業(yè)化項目中廣泛應(yīng)用。

例如，這些技術(shù)已大規(guī)模應(yīng)用于正在如火如荼展開的京東11.11。如，基于計算機(jī)視覺以圖搜圖的搜索應(yīng)用，輔助以語音對話交互技術(shù)的“拍照購”和“搭配購”功能已在剛剛拉開帷幕的京東11.11中大放異彩，通過拍照或截圖方式，直接匹配搭配好的時尚單品，打造“一站加購”、“一鍵買齊”的購物新體驗，幫助商家強(qiáng)種草、高轉(zhuǎn)化。

今年京東11.11期間，針對商品營銷內(nèi)容推出的智能寫作服務(wù)“達(dá)人寫作”，形成一篇百余字商品文案僅需300毫秒，5分鐘可以創(chuàng)作出1000篇文案，覆蓋近3000個商品品類，累計生成3,000萬AI內(nèi)容，相比于人工撰寫內(nèi)容點擊轉(zhuǎn)化率超過40%，成本降低93.2%。

除京東內(nèi)部應(yīng)用之外，這些獲得國際學(xué)術(shù)界頂尖榮譽(yù)的領(lǐng)先技術(shù)正在通過京東云這個統(tǒng)一平臺輸出對外賦能各行各業(yè)。比如，基于多模態(tài)交互數(shù)字人技術(shù)研發(fā)的“虛擬數(shù)字人”能助力京東云智能客服產(chǎn)品提升智能接待、服務(wù)和虛擬助手的體驗。比如，京東云智能客服業(yè)務(wù)與某銀行合作，打造了全國第一個交互式數(shù)字人項目“數(shù)字柜員”，有別于播報式數(shù)字人，“數(shù)字柜員”涉及VTM虛擬坐席交互，利用AI技術(shù)，實現(xiàn)用虛擬人替代真人柜員辦理業(yè)務(wù)、把控風(fēng)險。

可以看到，京東AI技術(shù)之所以能取得如此優(yōu)異的成績，是其在真實復(fù)雜場景的有效實踐和千錘百煉。作為京東集團(tuán)對外技術(shù)輸出的窗口，京東云不僅是政府、企業(yè)、家庭數(shù)字化轉(zhuǎn)型全生命周期合伙人，并基于人工智能、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、區(qū)塊鏈、隱私計算等技術(shù)，通過數(shù)智化全鏈條技術(shù)服務(wù)，助力千行百業(yè)數(shù)字化轉(zhuǎn)型，激發(fā)產(chǎn)業(yè)無限可能。

關(guān)于ACM Multimedia

ACM Multimedia是計算機(jī)科學(xué)領(lǐng)域中多媒體領(lǐng)域的首要國際會議，1993年以來每年召開一次，已成為多媒體領(lǐng)域頂級盛典，大會致力于推動多媒體的研究和應(yīng)用。

ACM Multimedia 2009 曾在北京舉辦，ACM Multimedia 2021 是該會議第二次在中國舉辦。

參考鏈接：

1.?X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics, ACM Multimedia 2021.

2.?ViDA-Man: Visual Dialog with Digital Human,?ACM Multimedia 2021.

3.?Unsupervised Person Image Generation with Semantic Parsing Transformation，CVPR 2019.

4.?Unpaired Person Image Generation with Semantic Parsing Transformation, TPAMI 2020.

5.?Down to the Last Detail: Virtual Try-on with Fine-grained Details. ACM MM 2020.

6.?Boosting Image Captioning with Attributes, ICCV 2017.

7.?Exploring Visual Relationship for Image Captioning, ECCV 2018.

8.?X-Linear Attention Networks for Image Captioning, CVPR 2020.

如果覺得有用，就請分享到朋友圈吧！

△點擊卡片關(guān)注極市平臺，獲取最新CV干貨

公眾號后臺回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載～

極市干貨

神經(jīng)網(wǎng)絡(luò)：視覺神經(jīng)網(wǎng)絡(luò)模型優(yōu)秀開源工作：timm庫使用方法和最新代碼解讀

技術(shù)綜述：綜述：神經(jīng)網(wǎng)絡(luò)中 Normalization 的發(fā)展歷程｜CNN輕量化模型及其設(shè)計原則綜述

算法技巧（trick）：8點PyTorch提速技巧匯總｜圖像分類算法優(yōu)化技巧

#?CV技術(shù)社群邀請函?#

△長按添加極市小助手

添加極市小助手微信（ID : cvmart4）

備注：姓名-學(xué)校/公司-研究方向-城市（如：小極-北大-目標(biāo)檢測-深圳）

即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群

每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

覺得有用麻煩給個在看啦~??

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席！