<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【行業(yè)資訊】“數(shù)字人”造福聽障人士!全球首個手語AI合成主播“小聰”發(fā)布

          共 4352字,需瀏覽 9分鐘

           ·

          2021-05-22 18:20

          正文共:4194字-5圖

          預(yù)計閱讀時間:11分鐘

          導(dǎo) 讀


          全球首個手語AI合成主播“小聰”,基于搜狗領(lǐng)先的人工智能和AI分身技術(shù),以“黑科技”的力量幫助聽障人士更好融入社會,更好享受數(shù)字化生活。



          5月17日,搜狐科技5G & AI峰會在北京舉行,搜狗CEO王小川應(yīng)邀出席發(fā)表主題演講。活動中,王小川正式發(fā)布最新一代搜狗AI合成主播——全球首個手語AI合成主播“小聰”,基于搜狗領(lǐng)先的人工智能和AI分身技術(shù),以“黑科技”的力量幫助聽障人士更好融入社會,更好享受數(shù)字化生活。



          王小川指出,早在2018年,搜狗推出了第一款“數(shù)字人”,這是以新華社的崔浩命名合作了“新小浩”的形象,這也是全球第一款A(yù)I合成主播的亮相。第一代“數(shù)字人”的表情和手勢還非常拘束。“之后我們在道路上一直引領(lǐng)著發(fā)展,現(xiàn)在已經(jīng)推出了七代‘?dāng)?shù)字人’產(chǎn)品。”


          為什么會考慮推出“數(shù)字人”?王小川指出,源頭是搜狗基因里涵蓋著搜索,表達(dá)了知識獲取、和人對話的能力,輸入法更強(qiáng)調(diào)溝通,輸入法和搜索背后的原始核心都是強(qiáng)調(diào)的語言。


          技術(shù)突破解決聽障難題


          根據(jù)世界衛(wèi)生組織發(fā)布的數(shù)據(jù),全球聽力障礙人群高達(dá)4.66億,在我國則有2700萬人。因無法常態(tài)化、高質(zhì)量地接受資訊信息,很多聽障人士難以融入社會,最終成為被遺忘和邊緣化群體。


          目前,在以電腦、手機(jī)為載體的各類新聞資訊、文娛節(jié)目中,引入手語協(xié)助的少之又少。即使有能力的電視節(jié)目提供手語解說時,也多以正常語序編排,很少照顧到手語的特殊表達(dá)結(jié)構(gòu),造成絕大部分聽障者只能理解不足60% 的內(nèi)容。因此,通過技術(shù)創(chuàng)新實現(xiàn)聽障人士真正可懂的手語播報能力,對于幫助聽障者克服溝通障礙,更好融入社會非常有價值。


          “小聰”以打造聽障人士真正可懂的通用手語播報為目標(biāo),立足于搜狗領(lǐng)先的數(shù)字人技術(shù)體系——搜狗分身,集成了超寫實3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實時面部動作生成及驅(qū)動等多項領(lǐng)先AI技術(shù),實現(xiàn)了超寫實3D數(shù)字人自然可懂的手語主播能力,使機(jī)器可以基于輸入口語文本生成逼真度高、手語表達(dá)準(zhǔn)確的3D數(shù)字人視頻內(nèi)容,從而具備“超寫實的逼真數(shù)字人效果”、“高可懂度的手語表達(dá)能力”、“高接受度的手語展現(xiàn)效果”三大特點。 


          三大優(yōu)勢凸顯“小聰”能力超群


          數(shù)字人效果方面,“小聰”使用了行業(yè)最領(lǐng)先的3D重光照掃描還原、面部肌肉驅(qū)動、表情肢體手勢捕捉技術(shù),生產(chǎn)出了高度還原真人發(fā)膚、形象逼真、動作自然生動的數(shù)字人模型,數(shù)字人寫實度的大幅突破則能夠顯著提升手語播報的真實感與親切感,從而提高播報用戶體驗。


          手語表達(dá)方面,“小聰”基于《國家通用手語詞典》,能夠?qū)崿F(xiàn)健聽人語言與聽障者手語語言的機(jī)器翻譯能力,基于輸入的健聽人語言能夠低延遲生成高準(zhǔn)確率的手語語言表征,通過搜狗分身的多模態(tài)生成技術(shù),實時預(yù)測生成對應(yīng)的超寫實3D數(shù)字人驅(qū)動參數(shù),進(jìn)而快速生成數(shù)字人手語播報視頻,在測評中可懂度可以達(dá)到85%以上,能有效幫助聽障者克服理解障礙,達(dá)成信息有效傳遞。


          手語展現(xiàn)方面,“小聰”可以完整實現(xiàn)手控信息及非手控信息的表達(dá),通過機(jī)器翻譯生成手語表征信息,覆蓋手部動作、面部表情、口動唇動等多個維度,并基于搜狗多模態(tài)端到端生成模型進(jìn)行聯(lián)合建模及預(yù)測,生成高準(zhǔn)確率的動作、表情、唇動等序列,從而達(dá)成自然、地道、接受度更高的手語表達(dá)效果。


          在此過程中,“小聰”還運(yùn)用了業(yè)內(nèi)領(lǐng)先的搜狗SLMT(Sign Langure Machine Translation)技術(shù),在輸出符合聽障人士習(xí)慣自然手語的基礎(chǔ)上,進(jìn)一步提高了手語的可懂度、豐富和逼真了AI合成主播的表情與唇動能力,除了可以解決聽障人士在日常生活、公共服務(wù)、特殊教育等多個場景下的信息不暢問題,還可以快速生成、批量復(fù)制,全年無休、隨時隨地提供服務(wù)。



          以下為王小川演講全文:


          搜狗更讓人熟悉的產(chǎn)品是輸入法搜索,背后也有一套AI的理念和產(chǎn)品,這次和搜狐一塊推出柳巖主播形象,背后有更多的內(nèi)容跟大家分享。


          早在2018年,搜狗推出了第一款“數(shù)字人”,這是以新華社的崔浩命名合作了“新小浩”的形象,這也是全球第一款A(yù)I合成主播的亮相。引起了國際上面的熱議,尤其是全球的頂尖媒體,包括像華盛頓郵報、Times,從主流到擴(kuò)展開有500多家媒體報道事件,當(dāng)時新華社的人物成為了全球AI人物的亮點。


          當(dāng)然,第一代“數(shù)字人”的整個表情和手勢還是非常拘束的。之后我們在道路上一直引領(lǐng)著發(fā)展,現(xiàn)在我們已經(jīng)推出了七代“數(shù)字人”產(chǎn)品,從第一代,之后2019年第一季度推出了表情更加豐富的“數(shù)字人”。


          第一代還很僵硬,第二代的時候從坐立的形象走向站起來,有肢體語言。三季度的時候發(fā)布了第四代技術(shù),開始有多種語言,從中文走向英文、俄文,應(yīng)用也是在海淀知識產(chǎn)權(quán)法庭使用。


          2019年“數(shù)字人”有完整的能力,一個感知的人的表情和語言能力,另一方面語言的問答能力合并,客服的能力,這個產(chǎn)品在平安進(jìn)行了使用。2019年的時候有了第六代的大規(guī)模肢體語言,到了2020年的時候走向3D,這是更大的突破,從2D到3D使它的肢體和場景有無限的展開。


          在行業(yè)應(yīng)用中,新聞主播是第一代的原型,之后有了AI營養(yǎng)師,在搜狗產(chǎn)品里面跟用戶交互,能夠使用戶的體驗度有更多的好感。還有AI的法官,下面的客服和證券也是在使用的,包括平安有“數(shù)字人”,我們還有數(shù)字人分身。這是著名的氣象主播楊丹,我們也數(shù)字化了。


          為什么會考慮推出“數(shù)字人”?源頭是搜狗基因里涵蓋著搜索,表達(dá)了知識獲取、和人對話的能力,輸入法更強(qiáng)調(diào)溝通,輸入法和搜索背后的原始核心都是強(qiáng)調(diào)的語言。


          語言存在兩個能力。首先語言承載了溝通的能力,通過語言人和人進(jìn)行交流。其次語言承載了認(rèn)知能力,如果沒有語言人類是沒辦法進(jìn)行深層次思考的。以語言為核心以交互的技術(shù)進(jìn)行溝通,從文字走向語音、圖像、視覺。在認(rèn)知層面的知識計算,語言搜索的核心加進(jìn)去,里面有對話、翻譯的能力,把溝通能力和它的計算思考合在一塊。


          我們認(rèn)為有機(jī)會給行業(yè)人士去制造他們的分身,讓他們的知識能力拓展到不止一個肉身去工作,同時讓他一天24小時無休地做更多的服務(wù)。在行業(yè)當(dāng)中今天有另一個走向是偶像,是打造一個虛擬的情感和崇拜能力,解決行業(yè)效率提升的問題。


          除了剛才講的以外,搜狗在語音識別合成里面做了非常多年的積累,今天可以秀一下口音里面背后有大量的技術(shù),包括語音音節(jié)的表征遷移技術(shù)。比如特朗普口音,下載素材并通過半個小時聲音皮膚技術(shù)處理,把他的音色提取出來,他就可以說中文了。


          這是原始的工作,他的口音還帶有川普的音色,我們現(xiàn)在也有更多的技術(shù)對他的底層皮膚聲音的音節(jié)進(jìn)行更多的修正,一種情況是修正成普通話。同時也有能力修正為其它的各種方言,可以把口音修成普通話,也可以把普通話做成其它的口音,比如陜西口音的合成,有不同方言的合成,也有韻味帶進(jìn)來,有非常多的工作可以讓這種口音播報更加自然和有趣。


          除了合成里面蘊(yùn)含的黑科技,搜狗也是行業(yè)當(dāng)中最早實現(xiàn)唇語識別工作。深度學(xué)習(xí)可以做到的一項工作就是做到了唇語識別,還可以獨立工作,不需要語音提取,只看嘴型變化就可以到60%的識別。把語音和口型放在一塊,語音非常嘈雜的情況里面幾乎只用視覺也可以達(dá)到90%的高度,在電梯以及外部環(huán)境聽不清的地方都可以使用。這不止是處理文字、語音或者簡單圖像的合成,而是在語音圖像的合成里面找到核心的技術(shù)。


          基于這樣的技術(shù),我們可以看到全面的能力,有圖像識別、人體識別、語音合成,嘴部語言合成,耳朵聽聲音,大腦思考變化,面部的表情和嘴唇言語的合成,打造全方位互動的形象,成為更多的分身。


          比如銀行客服人員,她有真實的原型,但是一旦用自數(shù)字合成之后就有孿生的系統(tǒng)。國家在定的法規(guī)在保險行業(yè)是必須要進(jìn)行面簽,網(wǎng)絡(luò)上的面簽希望節(jié)省客服人員的工作量,最后就有這樣的虛擬形象和面簽,對消費者有一個告知和全程數(shù)據(jù)錄像,解決了金融行業(yè)出現(xiàn)的問題。


          還有什么工種更有社會意義呢?搜狗跟搜狐完成媒體的升級的同時,我們考慮自己的社會責(zé)任。全球大概有4.6億的聽障人士,中國有2700萬人,他們直接看電視和網(wǎng)絡(luò)新聞的時候聲音的敏感度不夠。


          國際公約要求媒體能夠提供有聽障人士需要的節(jié)目,大家看到新聞能夠提供聽障人士的版本供他們使用,中國08年參與這項公約。在聽障人士的節(jié)目制作上,與歐美發(fā)達(dá)國家和港臺地區(qū)相比,我們相對都是落后的狀態(tài),這樣的情況并沒有引起學(xué)界高度重視和跟進(jìn),整個的研究水平和實驗水平相對偏低。


          這樣一個技術(shù)背后的原因也是有相當(dāng)大的挑戰(zhàn),國外在發(fā)達(dá)國家有更多的真實人士配置。我們提倡數(shù)字分身的技術(shù)是否能夠把更多手語主播的能力合成進(jìn)來變成分身。這是蠻難的,我們有非常多的技術(shù)難點。


          第一件事情,手語語言并不是純正的漢語,語法規(guī)則不一樣。普通話貓追老鼠,手語就是貓、老鼠追,還有開車不準(zhǔn)喝酒,開車喝酒不準(zhǔn),要進(jìn)行一層一層語義的翻譯工作。在這種情況下,我們今天看到在新聞電視主播的使用離殘疾人士和聽障人士是有距離的,打手勢的優(yōu)化程度不足理解度只有60%。而翻譯技術(shù)上反而幫助我們把正常語序翻譯成聽障人士需要的語序。


          第二件事情,當(dāng)我們在做手語的時候,“數(shù)字人”的表達(dá)動作需要非常豐富,尤其是有大的肢體動作和細(xì)膩的手勢表達(dá),不簡單是語言語音的問題,肢體本身成為他們獲取信息最重要的場景。隨著我們從期待的“數(shù)字人”技術(shù)進(jìn)步到今天到大的肢體表演和小的肢體里面,有機(jī)會完全手語的表現(xiàn)能力。


          第三件事情,不僅是手語,我們發(fā)現(xiàn)聽障人士表達(dá)的時候他們的表情在傳遞信息,表情參與了整個語義里面。比如他打的手勢——“他究竟什么意思”有不同的表情傳遞不同的意思。比如問句、感嘆句、陳述句。在合成的時候不僅要有一個大范圍手勢和細(xì)膩手勢,對于表情的聯(lián)合建模也非常關(guān)鍵,極大提高了他們對語義的理解。


          在這樣一個大的情況里面把搜狗的語言和語音、圖像相關(guān)的很多能力用到了,在前期有文本的預(yù)處理之后開始用了手語翻譯,里面借鑒了機(jī)器翻譯能力,把手語表征進(jìn)行合成,形成了自然語言到手語切分的表達(dá),所有的生成一方面是生成手勢能力,一方面是生成面部表情,最后合成得到一個新的“數(shù)字人”。最終就合成了全球首個AI合成手語主播。


          我們今天正式做一個“手語AI合成主播”發(fā)布。希望在今年年底之前這樣的產(chǎn)品能正式上線,幫助中國人民和全體人民享受更好的數(shù)字生活。


          來源 | 搜狗、央廣網(wǎng)

          版權(quán)聲明:本號內(nèi)容部分來自互聯(lián)網(wǎng),轉(zhuǎn)載請注明原文鏈接和作者,如有侵權(quán)或出處有誤請和我們聯(lián)系。

          瀏覽 72
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  蜜乳一二三四区 | 人日本黄色 | 黄色视频免费国产 | 操屄久久 | 最新中文字幕MV第三季歌词完整版 |