台湾精品久久久久久久,12一15女人片毛片,www国产亚洲精品久久网站 ,国产黄色在线视频,狼友视频在线观看,久久国产精品精品国产色婷婷,日韩无码操逼视频,91最新在线

來源：DataFunTalk

本文約7000字，建議閱讀10分鐘?
本次分享主要圍繞多模態(tài)與人機(jī)交互技術(shù)在電商直播中的應(yīng)用。

分享嘉賓：趙中州阿里巴巴高級(jí)算法專家

編輯整理：賈惠然?北京理工大學(xué)

出品平臺(tái)：DataFunTalk

[ 導(dǎo)讀 ]直播作為一種新的電商形態(tài)，電商直播化與直播電商化的現(xiàn)象已經(jīng)逐漸普遍。本次分享主要圍繞多模態(tài)與人機(jī)交互技術(shù)在電商直播中的應(yīng)用。小蜜數(shù)字人從去年雙11作為集團(tuán)十大黑科技正式公開亮相，該產(chǎn)品從以前的窗口式問答，升級(jí)為直播間的多維度互動(dòng)，這背后面臨的挑戰(zhàn)驅(qū)動(dòng)著小蜜的問答技術(shù)有了新的發(fā)展，這也是我今天主要分享的內(nèi)容。

雙十一的變化以及小蜜數(shù)字人的演變

提到雙十一，我們先來快速看一下雙11的變化以及背后小蜜的演進(jìn)。我們知道去年雙11它最大的變化來自于一天變成了兩個(gè)時(shí)段。同時(shí)，直播帶貨的GMV在整個(gè)電商場(chǎng)景里也占到了一個(gè)更大的比重。在服務(wù)這塊同樣有了新變化，從18年開始，小蜜在平臺(tái)的服務(wù)，以及面向商家的服務(wù)支持上面，已經(jīng)達(dá)到了相當(dāng)?shù)囊粋€(gè)規(guī)模。

到了最近的雙11，我們已經(jīng)可以把這種問答或者說服務(wù)的能力擴(kuò)展到像熱線等不同的渠道，或者像海外的更多國家和地區(qū)，目前是有18種語言，200多個(gè)國家和地區(qū)。同時(shí)小蜜也實(shí)現(xiàn)了交互形態(tài)的新升級(jí)，去年阿里CTO魯肅發(fā)布了阿里集團(tuán)的十大雙11黑科技。數(shù)字人就是作為其中之一。在具體展開技術(shù)細(xì)節(jié)之前，先介紹一下我們?yōu)槭裁匆鲞@件事兒。

1. 為什么要做數(shù)字人？

直播作為一種新的電商形態(tài)，電商直播化與直播電商化的現(xiàn)象已經(jīng)逐漸普遍。但在電商的實(shí)際市場(chǎng)上，人們會(huì)更加地關(guān)注李佳琪這樣的頭部大V。而真正的商家在直播過程中面臨很多困難。比如說某個(gè)服飾國內(nèi)top大品牌，它在直播興起以后，在杭州這邊開了一個(gè)分公司，為什么？是因?yàn)樗麄兛偛克诘睾茈y去招到相關(guān)的一些直播人才，難以去滿足或者說符合他們現(xiàn)在今天直播的品質(zhì)的要求。但是另一方面，商家也會(huì)發(fā)現(xiàn)，其實(shí)他們很難去給到特別大的一些支持或者說資源去支持主播，比如說打造他們自己的一些人設(shè)，因?yàn)榈戎鞑ビ幸欢ǔ砷L以后，它的流失也會(huì)比較大。

針對(duì)符合要求的直播人才難培養(yǎng)、主播培養(yǎng)成熟需要的成本大且成熟主播易流失的問題。這個(gè)時(shí)候我們引入小蜜數(shù)字人，一方面可以降低商家開播的成本；一方面數(shù)字人的形象可以與商家的品牌形象更好地結(jié)合達(dá)到品效合一。例如像海爾兄弟，三只松鼠。我們可以用數(shù)字人的形式獲得更加鮮活品牌形象的具象化；此外像二次元的形象可以作為新的媒介觸達(dá)年輕消費(fèi)人群提供為商品提供差異化競(jìng)爭(zhēng)。

2. 雙11十大黑科技 — 圍繞虛擬主播的交互新形態(tài)

這種新形態(tài)體現(xiàn)在小蜜數(shù)字人具有貨品展現(xiàn)、人物驅(qū)動(dòng)以及場(chǎng)景交互的能力。具體包括了智能播報(bào)劇本的創(chuàng)作；與劇本內(nèi)容相關(guān)的呈現(xiàn)和演示，包括商品的呈現(xiàn)，以及數(shù)字人在聲音上的情緒表達(dá)和動(dòng)作肢體上的驅(qū)動(dòng)演繹等；另外在實(shí)時(shí)互動(dòng)的場(chǎng)景中，我們還需要使數(shù)字人具有做相關(guān)的問答以及暖場(chǎng)游戲的能力。

3. 從問答到直播，面臨的新挑戰(zhàn)

問答主要以用戶問題和知識(shí)庫或者文檔庫內(nèi)容的匹配為主，而直播需要將匹配進(jìn)化為內(nèi)容的創(chuàng)作。
內(nèi)容創(chuàng)作會(huì)涉及文字、圖片、視頻等多種素材，多模態(tài)處理能力必不可少。
用戶在直播間的個(gè)性化互動(dòng)支持。主播在直播間中做1 v N互動(dòng)，也可以通過端上卡片做1v1的推薦互動(dòng)，如何融合千人千面的個(gè)性化推薦和數(shù)字人的動(dòng)態(tài)行為決策是一個(gè)我們正在探索的課題。

4. 從問答到直播的技術(shù)演進(jìn)

從最開始基于知識(shí)庫的問答(FAQ的匹配，NLU與意圖路由，任務(wù)型對(duì)話）我們進(jìn)一步引入了非結(jié)構(gòu)化內(nèi)容問答（例如面向文檔的閱讀理解和面向詳情頁的視覺問答），再進(jìn)一步演進(jìn)到多模態(tài)內(nèi)容合成：圍繞著文本生成能力和知識(shí)圖譜構(gòu)建，將不同素材進(jìn)行有機(jī)的組合和表現(xiàn)，包括故事線的編排，行為的驅(qū)動(dòng)，情感的計(jì)算，直播間氛圍感知及實(shí)時(shí)推薦等等。

5. 從虛擬主播知識(shí)大圖

接下來會(huì)圍繞數(shù)字人交互分兩部分介紹：劇本構(gòu)建和互動(dòng)呈現(xiàn)。

從問答到直播，長劇本創(chuàng)作是首要挑戰(zhàn)

在這里我舉例一些播報(bào)比較好的真人話術(shù)和他們相對(duì)應(yīng)賣點(diǎn)?？梢钥吹揭话愫玫恼嫒酥鞑?huì)針對(duì)特定的選品，挑選專業(yè)性的爆點(diǎn)性的內(nèi)容，它通常都是一兩個(gè)點(diǎn)，但是也會(huì)注重用戶在真實(shí)使用場(chǎng)景的這種連接和共鳴，達(dá)到種草的效果。

1.?學(xué)術(shù)定義

① Text / Story Generation

對(duì)于劇本生成，在學(xué)術(shù)上類似的任務(wù)是Text / Story Generation。目前工業(yè)上常用的方法是Data2Text Generation。這篇文章是清華與淘寶推薦理由生成一起合作的工作，可以看到這里邊利用到了很多的KV信息，以及一個(gè)兩階段的生成來實(shí)現(xiàn)最終的短文本的生成關(guān)系。

他主要依賴于輸入的數(shù)據(jù)并且專注于短文本的生成。還有一些方法更加偏向于開放式的Story Generation。比如說GPT3，以及達(dá)摩院的PLUG模型等等，它們可以根據(jù)一兩個(gè)線索或者一個(gè)文章的開頭來去補(bǔ)全后續(xù)的內(nèi)容。但考慮這些模型的可控性比較差，目前使用在直播場(chǎng)景落地仍然具有挑戰(zhàn)性。

② Story Telling / Story Visualization

在我們將視覺的呈現(xiàn)考慮進(jìn)來以后，它就變成了一種多模態(tài)任務(wù)。例如微軟提出的基于視覺素材story telling的工作。任務(wù)要求是給定一些具有差異性的圖片，圍繞這些圖片的差異性生成一個(gè)簡(jiǎn)短的介紹。最近的一些工作會(huì)嘗試融合一些圖像的Scene Graph來保證整個(gè)生成的邏輯性和順暢性。

還有一種從文本出發(fā)，做Story Visualizatioin。做的效果比較好工作有微軟的StoryGAN，它可以根據(jù)相關(guān)文本內(nèi)容，生成類似于卡通動(dòng)畫的場(chǎng)景。文本可視化目前還處在偏創(chuàng)新探索的階段。

2.?虛擬主播劇本構(gòu)建流程

縱軸來看，我們對(duì)劇本預(yù)先設(shè)定了框架，框架一部分來自于業(yè)務(wù)的定制性，另一部分來自于我們對(duì)用戶的關(guān)注點(diǎn)挖掘，比如檢索日志或歷史點(diǎn)擊內(nèi)容，或者說從真人主播歷史中挖掘好的腳本套路，然后來形成一體化的框架。
在這個(gè)框架之上，我們會(huì)去沿著圖中橫軸的步驟去構(gòu)建整體劇本，整體成型的劇本里邊涉及到多種素材來源。既包括了關(guān)鍵詞， pv屬性等結(jié)構(gòu)化的數(shù)據(jù)，也包括了一些非結(jié)構(gòu)化的比如文本、圖片、視頻等內(nèi)容。最終，這些內(nèi)容在構(gòu)建過程中通過匹配的方式，或者在素材來源追溯的方式得到最終的呈現(xiàn)。

3.?素材的挑戰(zhàn)

① 多來源知識(shí)挖掘與對(duì)齊

第一步要解決的是素材從哪里來的問題。在我們的業(yè)務(wù)場(chǎng)景中，更多是要用輕量高效的方法快速實(shí)現(xiàn)素材的構(gòu)建。雖然淘系或者電商域已經(jīng)積累了大量的這種素材，但它的形態(tài)非常豐富，關(guān)鍵詞、三元組、短句、單句到整個(gè)篇章，以及面臨著多渠道的一些來源，比如說用戶的、有UGC的，有商家PGC的，還有平臺(tái)積累的一些比如說知識(shí)圖譜，商品圖譜這樣的信息，它會(huì)帶來極大的知識(shí)質(zhì)量控制挑戰(zhàn)。在這里面的話，我們基于現(xiàn)有的淘系商品圖譜做了進(jìn)一步的擴(kuò)展。

在右邊這個(gè)例子中可以看到我們對(duì)于歷史文本進(jìn)行短語挖掘和實(shí)體的識(shí)別與掛載，會(huì)從商品屬性擴(kuò)展到賣點(diǎn)，例如寶寶餐具，因?yàn)樗牟馁|(zhì)是食品級(jí)硅膠，這種食品級(jí)硅膠它帶來的賣點(diǎn)就包括了可以支持高溫的消毒，更加安全，不含BPA等信息。其實(shí)不只是賣點(diǎn)，我們會(huì)把用戶使用場(chǎng)景相關(guān)的痛點(diǎn)，同樣關(guān)聯(lián)在圖譜中。這些關(guān)系最終會(huì)作為基礎(chǔ)的框架來去組織素材，達(dá)到劇本的整體邏輯性。

② 詳情頁結(jié)構(gòu)化改寫

但是對(duì)于一些新上架的商品，它基本上沒有歷史數(shù)據(jù)，所以我們也引入了這些商品的詳情頁作為冷啟動(dòng)來源。我們處理的思路和Layout LM的思路類似，因?yàn)槿绻苯幼鰅mage caption，結(jié)果不可控；但是如果拿OCR挖掘，會(huì)由于布局的關(guān)系會(huì)顯得比較雜亂。

所以我們會(huì)結(jié)合一些相關(guān)的object或者layout embedding，然后來實(shí)現(xiàn)對(duì)句子相對(duì)位置的感知和最終改寫完整性的保障。比如說我們針對(duì)這張抽取的相關(guān)的片段，形成一句賣點(diǎn)的介紹。在最終的業(yè)務(wù)數(shù)據(jù)集上也有明顯提升。同時(shí)在素材方面還有一些比如像短文本生成，模板自動(dòng)生成，這里就不再展開了。

4. 結(jié)構(gòu)的挑戰(zhàn) —?引入知識(shí)圖譜增強(qiáng)邏輯性

但是我們只有素材的話，其實(shí)有一個(gè)挑戰(zhàn)在于我們沒有辦法以一個(gè)很好的邏輯去展開。這里舉一個(gè)具體的例子，就是在我們做的第一版的劇本里邊，我們的數(shù)字人可能更多的去圍繞著商品的成分和功效來去介紹，就聽起來的觀感就有點(diǎn)像王婆賣瓜，自賣自夸，這樣它很難去與用戶真正產(chǎn)生一個(gè)連接，或者說讓他們有一種真實(shí)感。

所以說在這個(gè)例子里，我們會(huì)先從近期天氣炎熱比較干燥，或者說熬夜會(huì)遇到的皮膚衰老角質(zhì)化問題，從真正用戶遇到的痛點(diǎn)問題，以及它對(duì)應(yīng)的生活場(chǎng)景出發(fā)，再回歸到我們具體介紹的商品屬性，或者說賣點(diǎn)的介紹上來。在這個(gè)過程中，我們會(huì)引入到一個(gè)場(chǎng)景化的知識(shí)圖譜，這個(gè)也是我們?cè)谥暗幕诔煞仲u點(diǎn)的基礎(chǔ)上做了進(jìn)一步擴(kuò)充的，目前主要覆蓋了美妝食品等熱點(diǎn)類目。在劇本的生成過程中，我們最終會(huì)分成兩步。第一步將虛擬人講解的大綱基于圖譜做生成。第二步，圍繞著大綱展開，填充具體的內(nèi)容形成劇本的血肉。

5.?銜接的挑戰(zhàn) — 流暢表述

有了結(jié)構(gòu)以后，他可以在宏觀上保證我們順暢的去講述這件事，但是在微觀上怎么去流暢的表述呢？例如我們講棉布的親膚感、透氣性、衛(wèi)生性的賣點(diǎn)來說，會(huì)面臨著很多冗余的素材。圍繞著預(yù)訓(xùn)練通過預(yù)構(gòu)建數(shù)據(jù)集，比如說句子的順序的打亂；丟棄和重復(fù)樣本的過濾等等，這樣可以使大規(guī)模訓(xùn)練的模型具有一定的重點(diǎn)抽取能力，類似摘要的解法。但如果用純生成的方法，在遇到線上百萬千萬甚至億級(jí)的商品規(guī)模時(shí)，它的延時(shí)性就會(huì)達(dá)不到要求。

所以我們?cè)谶@里又進(jìn)一步引入了一種基于塊拷貝/block copy方法，在里面比較好的內(nèi)容，我們會(huì)以成句或者說短句集的形式直接拷貝過來。在這個(gè)過程中，相比較原始的一些pipeline的方法，或者說是一些比較簡(jiǎn)單的像BART這樣的基于預(yù)訓(xùn)練模型的生成方法的話，無論是在數(shù)值上比如BLEU、ROUGE的指標(biāo)上，還是在人工評(píng)分上都有更好的效果。

具體可以看一下case。最終的話，我們會(huì)把棉布里邊相關(guān)的一種吸濕性吸汗性親膚感等等特征抽取出來，并且根據(jù)這里邊的前后的語義邏輯，形成最終的整體性的介紹。

從問答到直播，關(guān)注點(diǎn)變化引發(fā)的問答新挑戰(zhàn)

下面我們主要介紹虛擬人互動(dòng)方面的技術(shù)。作為比較，列舉出某一個(gè)直播間的對(duì)話分布，可以看到相比較小蜜之前做的偏售中后的場(chǎng)景來說，用戶直播間的問題更加值得關(guān)注。比如說有活動(dòng)優(yōu)惠或者商品問答的一些產(chǎn)品里，它面臨著更多的一些非標(biāo)準(zhǔn)的，答案會(huì)實(shí)時(shí)變化，并且問題的跨度比較大以及問題長尾等現(xiàn)象。針對(duì)這個(gè)問題，我們基于之前的FAQ的知識(shí)庫進(jìn)一步的引入比如說像活動(dòng)的這種文檔操作的說明書，還有一些百科內(nèi)容，去構(gòu)建起一種基于閱讀理解的問答能力。

1.?通過閱讀理解，降低人工配置成本

剛才也有同學(xué)提到了關(guān)于MRC的一些任務(wù)，在學(xué)術(shù)的數(shù)據(jù)集上，比如說高達(dá)這樣的，它很多都是一些span，當(dāng)然到后面我們也可以看到基于多跳推理和長文本，甚至說帶有生成式答案的閱讀理解的過程。在我們的工作中更多會(huì)是從業(yè)務(wù)實(shí)用的角度去考慮這件事，比如說我們會(huì)結(jié)合不同的一些任務(wù)，像Retrieval & Ranking、基礎(chǔ)的預(yù)訓(xùn)練來去做整個(gè)model，通過Multi-Task Learning去共享相關(guān)的數(shù)據(jù)和不同的訓(xùn)練階段來獲得整體的提升。

2.?從答到問 — 通過QAMaker輔助知識(shí)構(gòu)建

但是在上線以后也會(huì)發(fā)現(xiàn)一些問題，如果只通過MRC做內(nèi)容抽取的話，它的業(yè)務(wù)可控性其實(shí)不如FAQ這樣靈活，比如說FAQ我可以去加一些相似問法或者干預(yù)手段。同時(shí)它領(lǐng)域遷移的成本也比較高，但另一方面的話，我們又面臨著大量的不管是我們域內(nèi)還是域外的客戶，其業(yè)務(wù)都涉及到大量非結(jié)構(gòu)化文檔，所以在這里的話我們就進(jìn)一步引入了MRC的對(duì)偶能力Learn to Ask,構(gòu)建了QAmaker。

關(guān)于QAmaker我們今年在WWW上被接收了一篇文章，這也是業(yè)界第一個(gè)把這兩個(gè)能力去做了一個(gè)one-stop聯(lián)合式的方案。它的思路很簡(jiǎn)單，但效果非常不錯(cuò)。主要方法是MRC的抽取和生成做了Joint Training，同時(shí)對(duì)答案span預(yù)測(cè)的過程和問題的過程做進(jìn)一步的attention，這就可以使模型在問和答上相互指導(dǎo)。

它的好處就在于我們相比較這種兩階段式的，比如說先抽取再生成問題，或者先生成問題再抽取來說，它的生成問題和答案的抽取可以是并行，并且是能夠相互一致性，相比兩階段有更好的一個(gè)效果。具體的話可大家可以去看我們的文章。

3.?引入詳情頁內(nèi)容支持輕量化問答

讓我們把目光回到詳情頁，因?yàn)樵斍轫撨€是一個(gè)對(duì)于冷啟動(dòng)商品或者說長尾問題很好的解決內(nèi)容來源。所以說在這里我們也引入了VQA視覺問答任務(wù)，首先把詳情頁去做了一定的采取裁切和匹配，根據(jù)用戶的問題會(huì)返回相關(guān)的圖片，并且高亮其中的區(qū)域，同時(shí)也會(huì)生成一個(gè)簡(jiǎn)短的文字內(nèi)容回復(fù)。

4.?多模態(tài)閱讀理解

① 支持主觀、長尾問題回復(fù)

在這里面的話，如果單純利用OCR的話，其實(shí)它有很多問題是難以解決的。比如說有一些偏向于主觀類的，它可能更需要去理解這個(gè)圖片。有一些在吊牌圖和同樣的視覺信息都包含的情況下，我們更希望去展示一種視覺相關(guān)的內(nèi)容，更不用說可能很多圖片其實(shí)是沒有文字標(biāo)注的。

② 多模態(tài)閱讀理解挑戰(zhàn)

除了對(duì)圖片和文字的理解外，對(duì)整個(gè)詳情圖做細(xì)粒度語義切分同樣很有挑戰(zhàn)，怎么去選取帶有語義一致性的，但是顆粒度又比較細(xì)適合做回復(fù)的，也需要通過多模態(tài)技術(shù)解決。

③ 支持視覺 - 文字的匹配與對(duì)齊

在這個(gè)過程中的話，我們利用了多模態(tài)的預(yù)訓(xùn)練技術(shù)。最終的效果可以看到一些主觀類的一些問題，然后還有一些使用步驟的問題，我們都可以在直播間或者問答的時(shí)候去做一個(gè)呈現(xiàn)。這里是一些視覺呈現(xiàn)和播報(bào)文字對(duì)齊配合的示例。

5.?多模態(tài)訓(xùn)練如火如荼

由于預(yù)訓(xùn)練這里前面的老師已經(jīng)做了非常詳細(xì)的介紹，我就不再展開了，包括了單流的模型，雙流的模型……這里我寫的比較是之前比較早期的一些工作，包括近期我們可以看到有UNIMO，還有像視頻的MMT等等的，都會(huì)有很多這樣的工作。

6. 小蜜多模態(tài)算法

① MMTK（MultiModel Toolkit）

我們也是在這個(gè)基礎(chǔ)上，針對(duì)詳情頁這種形態(tài)，引入了額外的任務(wù)。比如說詳情頁這里邊的話，我有一張大的一張圖片，我把它通過一些視覺的方式切分開以后，這些小圖和大圖之間的關(guān)系，天然就具有一定的語義包含的信息，通過這樣來去學(xué)習(xí)到他們局部的文字和圖像之間的語義關(guān)聯(lián)。

我們也在公開的VQA challenge上連續(xù)幾年取得了Top成績，同時(shí)在業(yè)務(wù)效果上相對(duì)來說比之前單模態(tài)拿到了更好的結(jié)果。但是這種直接基于詳情頁圖片的這種大小關(guān)系，其實(shí)是一個(gè)很弱的對(duì)齊，包括我們也看到了，大家在整個(gè)領(lǐng)域發(fā)展過程中，也在不斷嘗試?yán)玫揭恍┘?xì)度match的信息，包括OSCAR它可以用一些圖像的scene graph，然后像ERNIE-VIL，然后之前應(yīng)該在早期也有一個(gè)針對(duì)文字的這樣的信息的融入。

② ROSITA：細(xì)粒度跨模態(tài)預(yù)訓(xùn)練

我們進(jìn)一步提出了ROSITA模型，最近剛剛被ACMMM會(huì)議所接收。這里面、有一個(gè)很直接的motivation，我們會(huì)將這個(gè)圖像里邊的scene graph的物體和文字里相關(guān)的一些實(shí)體做更精細(xì)粒度的對(duì)齊。在具體的實(shí)現(xiàn)上面，我們會(huì)將同模態(tài)中出現(xiàn)在scene graph的實(shí)體，與其有直接連接并且連接關(guān)系比較強(qiáng)的部分元素以更高的概率去做作MLP任務(wù)，因?yàn)橄鄬?duì)來說它們之間容易導(dǎo)致信息泄露。

同時(shí)，在跨模態(tài)之間做對(duì)齊的元素，我們會(huì)降低它們同時(shí)被mask的概率，因?yàn)檫@部分其實(shí)可以提供很好的模態(tài)之間的互補(bǔ)信息。通過這樣的方法，進(jìn)一步改進(jìn)了mask language model里邊的token prediction的任務(wù)效果，然后在不侵入模型結(jié)構(gòu)的情況下去進(jìn)一步提升它細(xì)粒度的一個(gè)學(xué)習(xí)能力?？梢钥吹接疫叺脑?，我們?cè)趯?duì)比這樣的基線的UNITER 模型時(shí)，我們?cè)诓煌奈矬w和token之間的定位都有更好的效果。比如對(duì)于children這個(gè)詞，我們會(huì)進(jìn)一步的把圖片里邊的兩個(gè)小孩都會(huì)高亮出來然后再識(shí)別出來。包括在child和cat這樣的重疊視覺區(qū)域里邊，模型會(huì)將文字里邊相關(guān)詞賦予更高的attention權(quán)重。

感興趣的話大家可以去，我們近期應(yīng)該會(huì)公開相關(guān)的論文和代碼。這部分的話也是在包括對(duì)比OSCAR、VILLA等一些模型，也拿到了多模態(tài)多種數(shù)據(jù)集的SOTA效果。

7.?從圖像到直播

① LiveQA的演進(jìn)

但是其實(shí)對(duì)于直播間整個(gè)形態(tài)的話，它不只有圖片，也不只是視頻，進(jìn)一步的也可以結(jié)合直播流做一些互動(dòng)。我們開創(chuàng)了Live QA的工作，在這里我快速提一下它的演進(jìn)過程，對(duì)于視頻會(huì)有Grounding的任務(wù)，比如說可以檢測(cè)里邊的物體、動(dòng)作、時(shí)間等，是比較經(jīng)典的視頻任務(wù)，再進(jìn)一步的話，目前也有VideoQA的任務(wù)，會(huì)針對(duì)一些具體的問題去截取相關(guān)的視頻clip，或者說基于給到的文字，回復(fù)相關(guān)的音視頻片段。那么在直播這個(gè)場(chǎng)景，LiveQA的差異點(diǎn)一個(gè)是在于音視頻流往往都是實(shí)時(shí)的，相比離線的VideoQA對(duì)于食品表示和匹配的延遲會(huì)有很高要求。

另外直播間里因?yàn)樯婕暗接脩舻幕?dòng)行為，還存在點(diǎn)擊、評(píng)論等異構(gòu)化數(shù)據(jù)，怎么根據(jù)用戶的問題來去快速跳轉(zhuǎn)到之前曾經(jīng)播報(bào)過的某一個(gè)時(shí)間段，也同樣需要融合這些異構(gòu)數(shù)據(jù)。所以我們今天定義的Live QA任務(wù)，目前它會(huì)作為一個(gè)獨(dú)特于靜態(tài)視頻的形態(tài)，會(huì)有新的挑戰(zhàn)需要去解決，未來或許也會(huì)結(jié)合這種Live的這種形式來去做streaming base預(yù)訓(xùn)練的工作。

② LiveQA處理流程

目前為了更好的落地，我們把它分解成了一整個(gè)鏈路，在視頻的表示方面融合了ASR/音頻和視頻中檢測(cè)出實(shí)體等結(jié)構(gòu)化信息與統(tǒng)一的高維表示。因?yàn)檫@個(gè)場(chǎng)景相對(duì)來說是強(qiáng)商品驅(qū)動(dòng)的，也會(huì)涉及到大量屬性或賣點(diǎn)等。同樣對(duì)于用戶Query也會(huì)做NLU的結(jié)構(gòu)化表示和識(shí)別，由于用戶經(jīng)常會(huì)包含類似13號(hào)商品的指代信息，這時(shí)候還涉及到上下文的消歧，有些情況還需要做反問確認(rèn)等等。

再進(jìn)一步我們會(huì)綜合這些信息到視頻的預(yù)訓(xùn)練模型上面去做跨模態(tài)對(duì)齊和信息融合。這里的展現(xiàn)是在回放場(chǎng)景，通過主播小助理點(diǎn)進(jìn)去了以后，可以看到它推薦的熱門問題部分可以做視覺呈現(xiàn)，支持快速跳轉(zhuǎn)回放。目前整個(gè)工作還在不斷的進(jìn)展中，我們也在去覆蓋到更多的行業(yè)和場(chǎng)景，后面有機(jī)會(huì)的話可以再去做分享。

總結(jié)

做個(gè)小結(jié)，我們看到人機(jī)交互已經(jīng)變成了多模態(tài)或者全模態(tài)融合的交互形式，以數(shù)字人為例今天提供了更多的維度和空間，幫助我們?nèi)?gòu)建一個(gè)更加人性化、更加友好的交互體驗(yàn)。同時(shí)隨著生成技術(shù)發(fā)展以及結(jié)合知識(shí)圖譜的擴(kuò)展與推理能力，能夠讓整個(gè)內(nèi)容生產(chǎn)跟得上今天交互形態(tài)的發(fā)展。最后，預(yù)訓(xùn)練技術(shù)其實(shí)從文本到多模態(tài)已經(jīng)形成了明確的發(fā)展趨勢(shì)，未來在面向直播的這種低延時(shí)，高噪聲的場(chǎng)景里邊，可能有更多的問題和挑戰(zhàn)需要我們?nèi)ソ鉀Q。

今天的分享就到這里，謝謝大家。

編輯：黃繼彥

校對(duì)：林亦霖

阿里小蜜數(shù)字人多模態(tài)交互實(shí)踐