阿里小蜜數(shù)字人多模態(tài)交互實(shí)踐

來源:DataFunTalk 本文約7000字,建議閱讀10分鐘?
本次分享主要圍繞多模態(tài)與人機(jī)交互技術(shù)在電商直播中的應(yīng)用。





問答主要以用戶問題和知識(shí)庫或者文檔庫內(nèi)容的匹配為主,而直播需要將匹配進(jìn)化為內(nèi)容的創(chuàng)作。 內(nèi)容創(chuàng)作會(huì)涉及文字、圖片、視頻等多種素材,多模態(tài)處理能力必不可少。 用戶在直播間的個(gè)性化互動(dòng)支持。主播在直播間中做1 v N互動(dòng),也可以通過端上卡片做1v1的推薦互動(dòng),如何融合千人千面的個(gè)性化推薦和數(shù)字人的動(dòng)態(tài)行為決策是一個(gè)我們正在探索的課題。





縱軸來看,我們對(duì)劇本預(yù)先設(shè)定了框架,框架一部分來自于業(yè)務(wù)的定制性,另一部分來自于我們對(duì)用戶的關(guān)注點(diǎn)挖掘,比如檢索日志或歷史點(diǎn)擊內(nèi)容,或者說從真人主播歷史中挖掘好的腳本套路,然后來形成一體化的框架。 在這個(gè)框架之上,我們會(huì)去沿著圖中橫軸的步驟去構(gòu)建整體劇本,整體成型的劇本里邊涉及到多種素材來源。既包括了關(guān)鍵詞, pv屬性等結(jié)構(gòu)化的數(shù)據(jù),也包括了一些非結(jié)構(gòu)化的比如文本、圖片、視頻等內(nèi)容。最終,這些內(nèi)容在構(gòu)建過程中通過匹配的方式,或者在素材來源追溯的方式得到最終的呈現(xiàn)。

















編輯:黃繼彥
校對(duì):林亦霖
評(píng)論
圖片
表情
