<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          阿里小蜜數(shù)字人多模態(tài)交互實(shí)踐

          共 7764字,需瀏覽 16分鐘

           ·

          2021-10-16 13:25

          來源:DataFunTalk

          本文約7000字,建議閱讀10分鐘?

          本次分享主要圍繞多模態(tài)與人機(jī)交互技術(shù)在電商直播中的應(yīng)用。



          分享嘉賓:趙中州 阿里巴巴 高級(jí)算法專家
          編輯整理:賈惠然?北京理工大學(xué)
          出品平臺(tái):DataFunTalk

          [ 導(dǎo)讀 ]直播作為一種新的電商形態(tài),電商直播化與直播電商化的現(xiàn)象已經(jīng)逐漸普遍。本次分享主要圍繞多模態(tài)與人機(jī)交互技術(shù)在電商直播中的應(yīng)用。小蜜數(shù)字人從去年雙11作為集團(tuán)十大黑科技正式公開亮相,該產(chǎn)品從以前的窗口式問答,升級(jí)為直播間的多維度互動(dòng),這背后面臨的挑戰(zhàn)驅(qū)動(dòng)著小蜜的問答技術(shù)有了新的發(fā)展,這也是我今天主要分享的內(nèi)容。

          01
          雙十一的變化以及小蜜數(shù)字人的演變


          提到雙十一,我們先來快速看一下雙11的變化以及背后小蜜的演進(jìn)。我們知道去年雙11它最大的變化來自于一天變成了兩個(gè)時(shí)段。同時(shí),直播帶貨的GMV在整個(gè)電商場(chǎng)景里也占到了一個(gè)更大的比重。在服務(wù)這塊同樣有了新變化,從18年開始,小蜜在平臺(tái)的服務(wù),以及面向商家的服務(wù)支持上面,已經(jīng)達(dá)到了相當(dāng)?shù)囊粋€(gè)規(guī)模。

          到了最近的雙11,我們已經(jīng)可以把這種問答或者說服務(wù)的能力擴(kuò)展到像熱線等不同的渠道,或者像海外的更多國家和地區(qū),目前是有18種語言,200多個(gè)國家和地區(qū)。同時(shí)小蜜也實(shí)現(xiàn)了交互形態(tài)的新升級(jí),去年阿里CTO魯肅發(fā)布了阿里集團(tuán)的十大雙11黑科技。數(shù)字人就是作為其中之一。在具體展開技術(shù)細(xì)節(jié)之前,先介紹一下我們?yōu)槭裁匆鲞@件事兒。

          1. 為什么要做數(shù)字人?


          直播作為一種新的電商形態(tài),電商直播化與直播電商化的現(xiàn)象已經(jīng)逐漸普遍。但在電商的實(shí)際市場(chǎng)上,人們會(huì)更加地關(guān)注李佳琪這樣的頭部大V。而真正的商家在直播過程中面臨很多困難。比如說某個(gè)服飾國內(nèi)top大品牌,它在直播興起以后,在杭州這邊開了一個(gè)分公司,為什么?是因?yàn)樗麄兛偛克诘睾茈y去招到相關(guān)的一些直播人才,難以去滿足或者說符合他們現(xiàn)在今天直播的品質(zhì)的要求。但是另一方面,商家也會(huì)發(fā)現(xiàn),其實(shí)他們很難去給到特別大的一些支持或者說資源去支持主播,比如說打造他們自己的一些人設(shè),因?yàn)榈戎鞑ビ幸欢ǔ砷L以后,它的流失也會(huì)比較大。

          針對(duì)符合要求的直播人才難培養(yǎng)、主播培養(yǎng)成熟需要的成本大且成熟主播易流失的問題。這個(gè)時(shí)候我們引入小蜜數(shù)字人,一方面可以降低商家開播的成本;一方面數(shù)字人的形象可以與商家的品牌形象更好地結(jié)合達(dá)到品效合一。例如像海爾兄弟,三只松鼠。我們可以用數(shù)字人的形式獲得更加鮮活品牌形象的具象化;此外像二次元的形象可以作為新的媒介觸達(dá)年輕消費(fèi)人群提供為商品提供差異化競(jìng)爭(zhēng)。

          2. 雙11十大黑科技 — 圍繞虛擬主播的交互新形態(tài)


          這種新形態(tài)體現(xiàn)在小蜜數(shù)字人具有貨品展現(xiàn)、人物驅(qū)動(dòng)以及場(chǎng)景交互的能力。具體包括了智能播報(bào)劇本的創(chuàng)作;與劇本內(nèi)容相關(guān)的呈現(xiàn)和演示,包括商品的呈現(xiàn),以及數(shù)字人在聲音上的情緒表達(dá)和動(dòng)作肢體上的驅(qū)動(dòng)演繹等;另外在實(shí)時(shí)互動(dòng)的場(chǎng)景中,我們還需要使數(shù)字人具有做相關(guān)的問答以及暖場(chǎng)游戲的能力。

          3. 從問答到直播,面臨的新挑戰(zhàn)


          • 問答主要以用戶問題和知識(shí)庫或者文檔庫內(nèi)容的匹配為主,而直播需要將匹配進(jìn)化為內(nèi)容的創(chuàng)作。
          • 內(nèi)容創(chuàng)作會(huì)涉及文字、圖片、視頻等多種素材,多模態(tài)處理能力必不可少。
          • 用戶在直播間的個(gè)性化互動(dòng)支持。主播在直播間中做1 v N互動(dòng),也可以通過端上卡片做1v1的推薦互動(dòng),如何融合千人千面的個(gè)性化推薦和數(shù)字人的動(dòng)態(tài)行為決策是一個(gè)我們正在探索的課題。

          4. 從問答到直播的技術(shù)演進(jìn)


          從最開始基于知識(shí)庫的問答(FAQ的匹配,NLU與意圖路由,任務(wù)型對(duì)話)我們進(jìn)一步引入了非結(jié)構(gòu)化內(nèi)容問答(例如面向文檔的閱讀理解和面向詳情頁的視覺問答),再進(jìn)一步演進(jìn)到多模態(tài)內(nèi)容合成:圍繞著文本生成能力和知識(shí)圖譜構(gòu)建,將不同素材進(jìn)行有機(jī)的組合和表現(xiàn),包括故事線的編排,行為的驅(qū)動(dòng),情感的計(jì)算,直播間氛圍感知及實(shí)時(shí)推薦等等。

          5. 從虛擬主播知識(shí)大圖


          接下來會(huì)圍繞數(shù)字人交互分兩部分介紹:劇本構(gòu)建和互動(dòng)呈現(xiàn)。


          02
          從問答到直播,長劇本創(chuàng)作是首要挑戰(zhàn)



          在這里我舉例一些播報(bào)比較好的真人話術(shù)和他們相對(duì)應(yīng)賣點(diǎn)??梢钥吹揭话愫玫恼嫒酥鞑?huì)針對(duì)特定的選品,挑選專業(yè)性的爆點(diǎn)性的內(nèi)容,它通常都是一兩個(gè)點(diǎn),但是也會(huì)注重用戶在真實(shí)使用場(chǎng)景的這種連接和共鳴,達(dá)到種草的效果。

          1.?學(xué)術(shù)定義

          ① Text / Story Generation


          對(duì)于劇本生成,在學(xué)術(shù)上類似的任務(wù)是Text / Story Generation。目前工業(yè)上常用的方法是Data2Text Generation。這篇文章是清華與淘寶推薦理由生成一起合作的工作,可以看到這里邊利用到了很多的KV信息,以及一個(gè)兩階段的生成來實(shí)現(xiàn)最終的短文本的生成關(guān)系。

          他主要依賴于輸入的數(shù)據(jù)并且專注于短文本的生成。還有一些方法更加偏向于開放式的Story Generation。比如說GPT3,以及達(dá)摩院的PLUG模型等等,它們可以根據(jù)一兩個(gè)線索或者一個(gè)文章的開頭來去補(bǔ)全后續(xù)的內(nèi)容。但考慮這些模型的可控性比較差,目前使用在直播場(chǎng)景落地仍然具有挑戰(zhàn)性。

          ② Story Telling / Story Visualization


          在我們將視覺的呈現(xiàn)考慮進(jìn)來以后,它就變成了一種多模態(tài)任務(wù)。例如微軟提出的基于視覺素材story telling的工作。任務(wù)要求是給定一些具有差異性的圖片,圍繞這些圖片的差異性生成一個(gè)簡(jiǎn)短的介紹。最近的一些工作會(huì)嘗試融合一些圖像的Scene Graph來保證整個(gè)生成的邏輯性和順暢性。

          還有一種從文本出發(fā),做Story Visualizatioin。做的效果比較好工作有微軟的StoryGAN,它可以根據(jù)相關(guān)文本內(nèi)容,生成類似于卡通動(dòng)畫的場(chǎng)景。文本可視化目前還處在偏創(chuàng)新探索的階段。

          2.?虛擬主播劇本構(gòu)建流程


          • 縱軸來看,我們對(duì)劇本預(yù)先設(shè)定了框架,框架一部分來自于業(yè)務(wù)的定制性,另一部分來自于我們對(duì)用戶的關(guān)注點(diǎn)挖掘,比如檢索日志或歷史點(diǎn)擊內(nèi)容,或者說從真人主播歷史中挖掘好的腳本套路,然后來形成一體化的框架。
          • 在這個(gè)框架之上,我們會(huì)去沿著圖中橫軸的步驟去構(gòu)建整體劇本,整體成型的劇本里邊涉及到多種素材來源。既包括了關(guān)鍵詞, pv屬性等結(jié)構(gòu)化的數(shù)據(jù),也包括了一些非結(jié)構(gòu)化的比如文本、圖片、視頻等內(nèi)容。最終,這些內(nèi)容在構(gòu)建過程中通過匹配的方式,或者在素材來源追溯的方式得到最終的呈現(xiàn)。

          3.?素材的挑戰(zhàn)

          ① 多來源知識(shí)挖掘與對(duì)齊


          第一步要解決的是素材從哪里來的問題。在我們的業(yè)務(wù)場(chǎng)景中,更多是要用輕量高效的方法快速實(shí)現(xiàn)素材的構(gòu)建。雖然淘系或者電商域已經(jīng)積累了大量的這種素材,但它的形態(tài)非常豐富,關(guān)鍵詞、三元組、短句、單句到整個(gè)篇章,以及面臨著多渠道的一些來源,比如說用戶的、有UGC的,有商家PGC的,還有平臺(tái)積累的一些比如說知識(shí)圖譜,商品圖譜這樣的信息,它會(huì)帶來極大的知識(shí)質(zhì)量控制挑戰(zhàn)。在這里面的話,我們基于現(xiàn)有的淘系商品圖譜做了進(jìn)一步的擴(kuò)展。

          在右邊這個(gè)例子中可以看到我們對(duì)于歷史文本進(jìn)行短語挖掘和實(shí)體的識(shí)別與掛載,會(huì)從商品屬性擴(kuò)展到賣點(diǎn),例如寶寶餐具,因?yàn)樗牟馁|(zhì)是食品級(jí)硅膠,這種食品級(jí)硅膠它帶來的賣點(diǎn)就包括了可以支持高溫的消毒,更加安全,不含BPA等信息。其實(shí)不只是賣點(diǎn),我們會(huì)把用戶使用場(chǎng)景相關(guān)的痛點(diǎn),同樣關(guān)聯(lián)在圖譜中。這些關(guān)系最終會(huì)作為基礎(chǔ)的框架來去組織素材,達(dá)到劇本的整體邏輯性。

          ② 詳情頁結(jié)構(gòu)化改寫


          但是對(duì)于一些新上架的商品,它基本上沒有歷史數(shù)據(jù),所以我們也引入了這些商品的詳情頁作為冷啟動(dòng)來源。我們處理的思路和Layout LM的思路類似,因?yàn)槿绻苯幼鰅mage caption,結(jié)果不可控;但是如果拿OCR挖掘,會(huì)由于布局的關(guān)系會(huì)顯得比較雜亂。

          所以我們會(huì)結(jié)合一些相關(guān)的object或者layout embedding,然后來實(shí)現(xiàn)對(duì)句子相對(duì)位置的感知和最終改寫完整性的保障。比如說我們針對(duì)這張抽取的相關(guān)的片段,形成一句賣點(diǎn)的介紹。在最終的業(yè)務(wù)數(shù)據(jù)集上也有明顯提升。同時(shí)在素材方面還有一些比如像短文本生成,模板自動(dòng)生成,這里就不再展開了。

          4. 結(jié)構(gòu)的挑戰(zhàn) —?引入知識(shí)圖譜增強(qiáng)邏輯性


          但是我們只有素材的話,其實(shí)有一個(gè)挑戰(zhàn)在于我們沒有辦法以一個(gè)很好的邏輯去展開。這里舉一個(gè)具體的例子,就是在我們做的第一版的劇本里邊,我們的數(shù)字人可能更多的去圍繞著商品的成分和功效來去介紹,就聽起來的觀感就有點(diǎn)像王婆賣瓜,自賣自夸,這樣它很難去與用戶真正產(chǎn)生一個(gè)連接,或者說讓他們有一種真實(shí)感。

          所以說在這個(gè)例子里,我們會(huì)先從近期天氣炎熱比較干燥,或者說熬夜會(huì)遇到的皮膚衰老角質(zhì)化問題,從真正用戶遇到的痛點(diǎn)問題,以及它對(duì)應(yīng)的生活場(chǎng)景出發(fā),再回歸到我們具體介紹的商品屬性,或者說賣點(diǎn)的介紹上來。在這個(gè)過程中,我們會(huì)引入到一個(gè)場(chǎng)景化的知識(shí)圖譜,這個(gè)也是我們?cè)谥暗幕诔煞仲u點(diǎn)的基礎(chǔ)上做了進(jìn)一步擴(kuò)充的,目前主要覆蓋了美妝食品等熱點(diǎn)類目。在劇本的生成過程中,我們最終會(huì)分成兩步。第一步將虛擬人講解的大綱基于圖譜做生成。第二步,圍繞著大綱展開,填充具體的內(nèi)容形成劇本的血肉。

          5.?銜接的挑戰(zhàn) — 流暢表述


          有了結(jié)構(gòu)以后,他可以在宏觀上保證我們順暢的去講述這件事,但是在微觀上怎么去流暢的表述呢?例如我們講棉布的親膚感、透氣性、衛(wèi)生性的賣點(diǎn)來說,會(huì)面臨著很多冗余的素材。圍繞著預(yù)訓(xùn)練通過預(yù)構(gòu)建數(shù)據(jù)集,比如說句子的順序的打亂;丟棄和重復(fù)樣本的過濾等等,這樣可以使大規(guī)模訓(xùn)練的模型具有一定的重點(diǎn)抽取能力,類似摘要的解法。但如果用純生成的方法,在遇到線上百萬千萬甚至億級(jí)的商品規(guī)模時(shí),它的延時(shí)性就會(huì)達(dá)不到要求。

          所以我們?cè)谶@里又進(jìn)一步引入了一種基于塊拷貝/block copy方法,在里面比較好的內(nèi)容,我們會(huì)以成句或者說短句集的形式直接拷貝過來。在這個(gè)過程中,相比較原始的一些pipeline的方法,或者說是一些比較簡(jiǎn)單的像BART這樣的基于預(yù)訓(xùn)練模型的生成方法的話,無論是在數(shù)值上比如BLEU、ROUGE的指標(biāo)上,還是在人工評(píng)分上都有更好的效果。

          具體可以看一下case。最終的話,我們會(huì)把棉布里邊相關(guān)的一種吸濕性吸汗性親膚感等等特征抽取出來,并且根據(jù)這里邊的前后的語義邏輯,形成最終的整體性的介紹。


          03
          從問答到直播,關(guān)注點(diǎn)變化引發(fā)的問答新挑戰(zhàn)



          下面我們主要介紹虛擬人互動(dòng)方面的技術(shù)。作為比較,列舉出某一個(gè)直播間的對(duì)話分布,可以看到相比較小蜜之前做的偏售中后的場(chǎng)景來說,用戶直播間的問題更加值得關(guān)注。比如說有活動(dòng)優(yōu)惠或者商品問答的一些產(chǎn)品里,它面臨著更多的一些非標(biāo)準(zhǔn)的,答案會(huì)實(shí)時(shí)變化,并且問題的跨度比較大以及問題長尾等現(xiàn)象。針對(duì)這個(gè)問題,我們基于之前的FAQ的知識(shí)庫進(jìn)一步的引入比如說像活動(dòng)的這種文檔操作的說明書,還有一些百科內(nèi)容,去構(gòu)建起一種基于閱讀理解的問答能力。

          1.?通過閱讀理解,降低人工配置成本


          剛才也有同學(xué)提到了關(guān)于MRC的一些任務(wù),在學(xué)術(shù)的數(shù)據(jù)集上,比如說高達(dá)這樣的,它很多都是一些span,當(dāng)然到后面我們也可以看到基于多跳推理和長文本,甚至說帶有生成式答案的閱讀理解的過程。在我們的工作中更多會(huì)是從業(yè)務(wù)實(shí)用的角度去考慮這件事,比如說我們會(huì)結(jié)合不同的一些任務(wù),像Retrieval & Ranking、基礎(chǔ)的預(yù)訓(xùn)練來去做整個(gè)model,通過Multi-Task Learning去共享相關(guān)的數(shù)據(jù)和不同的訓(xùn)練階段來獲得整體的提升。

          2.?從答到問 — 通過QAMaker輔助知識(shí)構(gòu)建


          但是在上線以后也會(huì)發(fā)現(xiàn)一些問題,如果只通過MRC做內(nèi)容抽取的話,它的業(yè)務(wù)可控性其實(shí)不如FAQ這樣靈活,比如說FAQ我可以去加一些相似問法或者干預(yù)手段。同時(shí)它領(lǐng)域遷移的成本也比較高,但另一方面的話,我們又面臨著大量的不管是我們域內(nèi)還是域外的客戶,其業(yè)務(wù)都涉及到大量非結(jié)構(gòu)化文檔,所以在這里的話我們就進(jìn)一步引入了MRC的對(duì)偶能力Learn to Ask,構(gòu)建了QAmaker。

          關(guān)于QAmaker我們今年在WWW上被接收了一篇文章,這也是業(yè)界第一個(gè)把這兩個(gè)能力去做了一個(gè)one-stop聯(lián)合式的方案。它的思路很簡(jiǎn)單,但效果非常不錯(cuò)。主要方法是MRC的抽取和生成做了Joint Training,同時(shí)對(duì)答案span預(yù)測(cè)的過程和問題的過程做進(jìn)一步的attention,這就可以使模型在問和答上相互指導(dǎo)。

          它的好處就在于我們相比較這種兩階段式的,比如說先抽取再生成問題,或者先生成問題再抽取來說,它的生成問題和答案的抽取可以是并行,并且是能夠相互一致性,相比兩階段有更好的一個(gè)效果。具體的話可大家可以去看我們的文章。

          3.?引入詳情頁內(nèi)容支持輕量化問答


          讓我們把目光回到詳情頁,因?yàn)樵斍轫撨€是一個(gè)對(duì)于冷啟動(dòng)商品或者說長尾問題很好的解決內(nèi)容來源。所以說在這里我們也引入了VQA視覺問答任務(wù),首先把詳情頁去做了一定的采取裁切和匹配,根據(jù)用戶的問題會(huì)返回相關(guān)的圖片,并且高亮其中的區(qū)域,同時(shí)也會(huì)生成一個(gè)簡(jiǎn)短的文字內(nèi)容回復(fù)。

          4.?多模態(tài)閱讀理解

          ① 支持主觀、長尾問題回復(fù)


          在這里面的話,如果單純利用OCR的話,其實(shí)它有很多問題是難以解決的。比如說有一些偏向于主觀類的,它可能更需要去理解這個(gè)圖片。有一些在吊牌圖和同樣的視覺信息都包含的情況下,我們更希望去展示一種視覺相關(guān)的內(nèi)容,更不用說可能很多圖片其實(shí)是沒有文字標(biāo)注的。

          ② 多模態(tài)閱讀理解挑戰(zhàn)


          除了對(duì)圖片和文字的理解外,對(duì)整個(gè)詳情圖做細(xì)粒度語義切分同樣很有挑戰(zhàn),怎么去選取帶有語義一致性的,但是顆粒度又比較細(xì)適合做回復(fù)的,也需要通過多模態(tài)技術(shù)解決。

          ③ 支持視覺 - 文字的匹配與對(duì)齊


          在這個(gè)過程中的話,我們利用了多模態(tài)的預(yù)訓(xùn)練技術(shù)。最終的效果可以看到一些主觀類的一些問題,然后還有一些使用步驟的問題,我們都可以在直播間或者問答的時(shí)候去做一個(gè)呈現(xiàn)。這里是一些視覺呈現(xiàn)和播報(bào)文字對(duì)齊配合的示例。

          5.?多模態(tài)訓(xùn)練如火如荼


          由于預(yù)訓(xùn)練這里前面的老師已經(jīng)做了非常詳細(xì)的介紹,我就不再展開了,包括了單流的模型,雙流的模型……這里我寫的比較是之前比較早期的一些工作,包括近期我們可以看到有UNIMO,還有像視頻的MMT等等的,都會(huì)有很多這樣的工作。

          6. 小蜜多模態(tài)算法

          ① MMTK(MultiModel Toolkit)


          我們也是在這個(gè)基礎(chǔ)上,針對(duì)詳情頁這種形態(tài),引入了額外的任務(wù)。比如說詳情頁這里邊的話,我有一張大的一張圖片,我把它通過一些視覺的方式切分開以后,這些小圖和大圖之間的關(guān)系,天然就具有一定的語義包含的信息,通過這樣來去學(xué)習(xí)到他們局部的文字和圖像之間的語義關(guān)聯(lián)。

          我們也在公開的VQA challenge上連續(xù)幾年取得了Top成績,同時(shí)在業(yè)務(wù)效果上相對(duì)來說比之前單模態(tài)拿到了更好的結(jié)果。但是這種直接基于詳情頁圖片的這種大小關(guān)系,其實(shí)是一個(gè)很弱的對(duì)齊,包括我們也看到了,大家在整個(gè)領(lǐng)域發(fā)展過程中,也在不斷嘗試?yán)玫揭恍┘?xì)度match的信息,包括OSCAR它可以用一些圖像的scene graph,然后像ERNIE-VIL,然后之前應(yīng)該在早期也有一個(gè)針對(duì)文字的這樣的信息的融入。

          ② ROSITA:細(xì)粒度跨模態(tài)預(yù)訓(xùn)練


          我們進(jìn)一步提出了ROSITA模型,最近剛剛被ACMMM會(huì)議所接收。這里面、有一個(gè)很直接的motivation,我們會(huì)將這個(gè)圖像里邊的scene graph的物體和文字里相關(guān)的一些實(shí)體做更精細(xì)粒度的對(duì)齊。在具體的實(shí)現(xiàn)上面,我們會(huì)將同模態(tài)中出現(xiàn)在scene graph的實(shí)體,與其有直接連接并且連接關(guān)系比較強(qiáng)的部分元素以更高的概率去做作MLP任務(wù),因?yàn)橄鄬?duì)來說它們之間容易導(dǎo)致信息泄露。

          同時(shí),在跨模態(tài)之間做對(duì)齊的元素,我們會(huì)降低它們同時(shí)被mask的概率,因?yàn)檫@部分其實(shí)可以提供很好的模態(tài)之間的互補(bǔ)信息。通過這樣的方法,進(jìn)一步改進(jìn)了mask language model里邊的token prediction的任務(wù)效果,然后在不侵入模型結(jié)構(gòu)的情況下去進(jìn)一步提升它細(xì)粒度的一個(gè)學(xué)習(xí)能力??梢钥吹接疫叺脑?,我們?cè)趯?duì)比這樣的基線的UNITER 模型時(shí),我們?cè)诓煌奈矬w和token之間的定位都有更好的效果。比如對(duì)于children這個(gè)詞,我們會(huì)進(jìn)一步的把圖片里邊的兩個(gè)小孩都會(huì)高亮出來然后再識(shí)別出來。包括在child和cat這樣的重疊視覺區(qū)域里邊,模型會(huì)將文字里邊相關(guān)詞賦予更高的attention權(quán)重。

          感興趣的話大家可以去,我們近期應(yīng)該會(huì)公開相關(guān)的論文和代碼。這部分的話也是在包括對(duì)比OSCAR、VILLA等一些模型,也拿到了多模態(tài)多種數(shù)據(jù)集的SOTA效果。

          7.?從圖像到直播

          ① LiveQA的演進(jìn)


          但是其實(shí)對(duì)于直播間整個(gè)形態(tài)的話,它不只有圖片,也不只是視頻,進(jìn)一步的也可以結(jié)合直播流做一些互動(dòng)。我們開創(chuàng)了Live QA的工作,在這里我快速提一下它的演進(jìn)過程,對(duì)于視頻會(huì)有Grounding的任務(wù),比如說可以檢測(cè)里邊的物體、動(dòng)作、時(shí)間等,是比較經(jīng)典的視頻任務(wù),再進(jìn)一步的話,目前也有VideoQA的任務(wù),會(huì)針對(duì)一些具體的問題去截取相關(guān)的視頻clip,或者說基于給到的文字,回復(fù)相關(guān)的音視頻片段。那么在直播這個(gè)場(chǎng)景,LiveQA的差異點(diǎn)一個(gè)是在于音視頻流往往都是實(shí)時(shí)的,相比離線的VideoQA對(duì)于食品表示和匹配的延遲會(huì)有很高要求。

          另外直播間里因?yàn)樯婕暗接脩舻幕?dòng)行為,還存在點(diǎn)擊、評(píng)論等異構(gòu)化數(shù)據(jù),怎么根據(jù)用戶的問題來去快速跳轉(zhuǎn)到之前曾經(jīng)播報(bào)過的某一個(gè)時(shí)間段,也同樣需要融合這些異構(gòu)數(shù)據(jù)。所以我們今天定義的Live QA任務(wù),目前它會(huì)作為一個(gè)獨(dú)特于靜態(tài)視頻的形態(tài),會(huì)有新的挑戰(zhàn)需要去解決,未來或許也會(huì)結(jié)合這種Live的這種形式來去做streaming base預(yù)訓(xùn)練的工作。

          ② LiveQA處理流程


          目前為了更好的落地,我們把它分解成了一整個(gè)鏈路,在視頻的表示方面融合了ASR/音頻和視頻中檢測(cè)出實(shí)體等結(jié)構(gòu)化信息與統(tǒng)一的高維表示。因?yàn)檫@個(gè)場(chǎng)景相對(duì)來說是強(qiáng)商品驅(qū)動(dòng)的,也會(huì)涉及到大量屬性或賣點(diǎn)等。同樣對(duì)于用戶Query也會(huì)做NLU的結(jié)構(gòu)化表示和識(shí)別,由于用戶經(jīng)常會(huì)包含類似13號(hào)商品的指代信息,這時(shí)候還涉及到上下文的消歧,有些情況還需要做反問確認(rèn)等等。

          再進(jìn)一步我們會(huì)綜合這些信息到視頻的預(yù)訓(xùn)練模型上面去做跨模態(tài)對(duì)齊和信息融合。這里的展現(xiàn)是在回放場(chǎng)景,通過主播小助理點(diǎn)進(jìn)去了以后,可以看到它推薦的熱門問題部分可以做視覺呈現(xiàn),支持快速跳轉(zhuǎn)回放。目前整個(gè)工作還在不斷的進(jìn)展中,我們也在去覆蓋到更多的行業(yè)和場(chǎng)景,后面有機(jī)會(huì)的話可以再去做分享。

          04
          總結(jié)



          做個(gè)小結(jié),我們看到人機(jī)交互已經(jīng)變成了多模態(tài)或者全模態(tài)融合的交互形式,以數(shù)字人為例今天提供了更多的維度和空間,幫助我們?nèi)?gòu)建一個(gè)更加人性化、更加友好的交互體驗(yàn)。同時(shí)隨著生成技術(shù)發(fā)展以及結(jié)合知識(shí)圖譜的擴(kuò)展與推理能力,能夠讓整個(gè)內(nèi)容生產(chǎn)跟得上今天交互形態(tài)的發(fā)展。最后,預(yù)訓(xùn)練技術(shù)其實(shí)從文本到多模態(tài)已經(jīng)形成了明確的發(fā)展趨勢(shì),未來在面向直播的這種低延時(shí),高噪聲的場(chǎng)景里邊,可能有更多的問題和挑戰(zhàn)需要我們?nèi)ソ鉀Q。


          今天的分享就到這里,謝謝大家。

          編輯:黃繼彥

          校對(duì):林亦霖


          瀏覽 87
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩w w w | 超碰av在线 | 久久婷婷综合激情 | 浪货跪趴开荤肉欲H文视频 | 在线亚洲欧洲 |