<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          智能座艙入門必備:一文讀懂車載語音系統(tǒng)

          共 5022字,需瀏覽 11分鐘

           ·

          2023-08-23 15:00

          智能座艙有兩大人工智能交互系統(tǒng),一個(gè)基于視覺(計(jì)算機(jī)視覺)、一個(gè)基于語音。前者的應(yīng)用體現(xiàn)在IMS系統(tǒng),我之前的文章有過介紹;后者的應(yīng)用在艙內(nèi)的語音功能。這篇文章就系統(tǒng)地介紹智能座艙的語音系統(tǒng)(VOS)。


          01 概述


          VOS(智能座艙語音操作系統(tǒng))旨在為用戶提供車內(nèi)環(huán)境下的語音交互服務(wù)。

          VOS系統(tǒng)采用了喚醒、語音識別、語義理解等技術(shù)實(shí)現(xiàn)語音控制。

          座艙的車設(shè)車控、地圖導(dǎo)航、音樂及多媒體應(yīng)用、系統(tǒng)設(shè)置、空調(diào)等均可通過語音來操作。

          除了針對車身、車載的控制外,語音還支持天氣查詢、日程管理以及閑聊對話。

          用戶只要說喚醒詞,即可使用。語音指令可以一步直達(dá)功能,既能解放手指,又無需視線偏移注視車機(jī)中控區(qū)域,從而保障行車安全。



          02 總體架構(gòu)


          在總體的架構(gòu)上,語音系統(tǒng)可分為四個(gè)模塊。即車端系統(tǒng)、云端系統(tǒng)、語音運(yùn)營管理平臺以及訓(xùn)練和分析統(tǒng)計(jì)模塊。


          整體的語音系統(tǒng)和要求,包括車端到云端鏈接、數(shù)據(jù)到功能的構(gòu)建、Online的運(yùn)營平臺、線下線上的數(shù)據(jù)采集和標(biāo)注。




          03 VOS車端模塊


          車機(jī)端主要是對話系統(tǒng)(DS),也是用戶感受最直觀的,產(chǎn)品的重點(diǎn)側(cè)向交互設(shè)計(jì)。



          從上圖可以看到,車機(jī)端由以下幾個(gè)模塊組成:
          • 音頻處理模塊:AEC /AGC/ANR/ BF...
          • 喚醒模塊/本地ASR
          • 語音控制器語
          • 本地對話系統(tǒng)
          • TTS模塊


          以上每個(gè)模塊均包含一個(gè)或多個(gè)應(yīng)用,這些應(yīng)用內(nèi)置在車機(jī):音頻處理包括AEC (Acoustic Echo Cancelling)、VAD (Voice Activity Detection)、音頻壓縮、喚醒詞、本地的ASR識別等。

          該模塊可以對來自麥克風(fēng)的原始音頻信號進(jìn)行各種預(yù)處理,向語音助手提供獲取喚醒信號、預(yù)處理后的音頻、本地ASR識別結(jié)果等接口。

          前端信號處理包括:AEC、ANR、AGC、聲源定位(SSL)、Beamforming,全部通過軟件方案實(shí)現(xiàn)。


          3.1語音助手


          車機(jī)端負(fù)責(zé)語音對話的中樞控制模塊,負(fù)責(zé)協(xié)調(diào)車機(jī)端對話系統(tǒng)的總體流程。

          車機(jī)端的其他模塊或者被語音助手調(diào)用(音頻服務(wù)、本地對話系統(tǒng)、TTS模塊、應(yīng)用程序),或者屬于語音助手的組成部分(對話控制器)。


          3.2本地對話統(tǒng)(本地DS)


          本地對話系統(tǒng)是云端對話系統(tǒng)在車機(jī)上的一個(gè)鏡像。它負(fù)責(zé)執(zhí)行那些需要在車機(jī)上執(zhí)行的對話處理,如:離線無網(wǎng)絡(luò)狀態(tài)下的對話功能、基于本地SDK的導(dǎo)航或音樂搜索相關(guān)的對話處理、 或者其他一些本地優(yōu)于云端的場景下的對話功能。本地對話系統(tǒng)提供了一系列接口供對話控制器進(jìn)行調(diào)用。

          本地對話系統(tǒng)從云端對話系統(tǒng)相同的基礎(chǔ)架構(gòu)衍生而來,和云端的設(shè)計(jì)和功能大體相同。

          但也根據(jù)本地的特點(diǎn)和需求進(jìn)行了變化。如鑒于車機(jī)運(yùn)算資源的匱乏而精簡了模型;集成了車機(jī)專屬的基于SDK的媒體和導(dǎo)航搜索功能;本地對話系統(tǒng)包含語音識別、語義理解、語音合成, 系統(tǒng)傾向于支持?jǐn)嗑W(wǎng)場景下的業(yè)務(wù),如車控、打電話等基本場景。

          本地對話系統(tǒng)的交互入口是語音喚醒,有的喚醒會支持雙喚醒詞(隱含)。像百度地圖就支持“小度小度”也支持“小德小德”(高德地圖的喚醒詞),容錯率更好。


          3.3本地NLU


          本地NLU在無網(wǎng)絡(luò)狀態(tài)下,提供基礎(chǔ)語義理解服務(wù),考慮到車機(jī)端的運(yùn)算能力,在NLU模型上需做大量的模型裁剪和壓縮,并結(jié)合車機(jī)芯片進(jìn)行指令集層面的優(yōu)化,確保將本地NLU的效果最大程度地逼近云端NLU的效果;本地NLU的資源大約是在線的1/10, 最大程度地保證了本地的效果。


          3.4本地TTS


          TTS模塊被語音助手調(diào)用,負(fù)責(zé)將文本轉(zhuǎn)換為語音播報(bào)。TTS合成引擎由供應(yīng)商提供,對話話術(shù)的TTS文本通過話術(shù)運(yùn)營系統(tǒng)來制定和編輯,其結(jié)果存儲在數(shù)據(jù)庫中、供對話系統(tǒng)調(diào)用。



          04 VOS云端系統(tǒng)



          4.1對話系統(tǒng)


          對話系統(tǒng)的云端部分(或者說在線對話系統(tǒng))由多個(gè)部署在云服務(wù)上的服務(wù)和存儲組成。

          云端向車機(jī)提供兩種接口:一種是基于TCP的socket流式數(shù)據(jù)傳輸接口,用于傳輸語音數(shù)據(jù)并給出云端ASR識別結(jié)果和對話結(jié)果;一種是基于HTTP的用于發(fā)送非語音類消息的接口。

          云端服務(wù)可以部署在各種云服務(wù)(如aws、華為云等)的計(jì)算節(jié)點(diǎn)上;一套部署在具備64G內(nèi)存的計(jì)算節(jié)點(diǎn)上的云端節(jié)點(diǎn)可以同時(shí)支持2-3萬臺設(shè)備的訪問。

          對話系統(tǒng)的云端部分主要提供以下幾項(xiàng)功能:
          • 在線ASR識別 對話服務(wù)模塊可以接受用戶發(fā)起的語音對話的音頻輸入,并給出識別結(jié)果。
          • 對話  對話服務(wù)模塊可以接受用戶發(fā)起的語音對話的文本輸入,并給出相應(yīng)的對話結(jié)果,包括TTS文本、要車機(jī)進(jìn)行的操作、車機(jī)用來屏顯的內(nèi)容等。
          • 其他功能  如向用戶進(jìn)行主動推送等。


          4.2模型


          模型主要提供各種AI算法的運(yùn)行模型數(shù)據(jù),包括聲學(xué)模型、語言模型等等多個(gè)不同算法不同用途的模型,可獨(dú)立升級,來實(shí)現(xiàn)最優(yōu)的AI處理效果。

          對于通用領(lǐng)域,模型優(yōu)化能夠帶來整體的提升。例如整體升級聲學(xué)模型和語言模型,在用戶數(shù)據(jù)積累到一定程度的時(shí)候,如1萬小時(shí)交互音頻數(shù)據(jù),可以帶來20%-30%錯誤率下降;

          對于專有領(lǐng)域,模型優(yōu)化能夠?qū)崿F(xiàn)從極低到極高,甚至從無到有的提升,例如一些產(chǎn)品強(qiáng)相關(guān)的詞匯、使用常見的一些專有名詞、人名地名等,都可以做特定的優(yōu)化,達(dá)到通用的效果。


          4.3云端TTS


          云端TTS有別于本地端TTS,基于強(qiáng)大的計(jì)算能力,云端使用更大的數(shù)據(jù)庫,技術(shù)上使用基于拼接的方案,相比于本地端基于參數(shù)合成的TTS,音質(zhì)更自然;


          TTS的聲音可以進(jìn)行定制,需要經(jīng)過文本設(shè)計(jì)、發(fā)音人確認(rèn)、錄音場地和錄音、數(shù)據(jù)篩選、標(biāo)注、訓(xùn)練等過程。



          05 運(yùn)營平臺


          運(yùn)營平臺通過云端和線上對話系統(tǒng)聯(lián)通,負(fù)責(zé)以可視化的形式干預(yù)對話系統(tǒng)線上的數(shù)據(jù)和功能。其中主要包含兩大類功能:數(shù)據(jù)運(yùn)營、功能運(yùn)營。


          5.1數(shù)據(jù)運(yùn)營


          數(shù)據(jù)部分的運(yùn)營主要針對兩部分比較常用的可運(yùn)營數(shù)據(jù)

          1. 針對系統(tǒng)接入的CP/SP的可運(yùn)營的內(nèi)容,比如喜馬拉雅的推薦數(shù)據(jù)、黃頁數(shù)據(jù)等等,可以在系統(tǒng)中以手動的方式調(diào)整數(shù)據(jù)的內(nèi)容、排序等;


          2. 針對企業(yè)自有的數(shù)據(jù),比如主機(jī)廠獨(dú)有的充電樁數(shù)據(jù)、服務(wù)門店數(shù)據(jù),可以有機(jī)的結(jié)合到對話系統(tǒng)中來。



          5.2功能運(yùn)營


          功能運(yùn)營主要是在特定的時(shí)間點(diǎn),比如某些節(jié)日、或者有特殊意義的日子、或者臨時(shí)發(fā)生一些事件的時(shí)候,通過快速干預(yù)某些特定的說法的反饋,通過編輯特定說法的TTS回復(fù),來實(shí)現(xiàn)系統(tǒng)對特殊情況的特殊處理。


          06 訓(xùn)練及分析


          6.1用戶數(shù)據(jù)統(tǒng)計(jì)分析


          用戶數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng),通過對所有實(shí)車用戶使用車載語音的情況進(jìn)行統(tǒng)計(jì)分析,能夠得出不同維度、不同粒度的分析報(bào)表。定期進(jìn)行報(bào)表的解讀和分析,可用得出的結(jié)論來指導(dǎo)系統(tǒng)功能的改進(jìn)。


          6.2訓(xùn)練系統(tǒng)


          針對音頻、文本、圖像的采集+標(biāo)注系統(tǒng),企業(yè)通過定期常規(guī)的對線上數(shù)據(jù)的回收、標(biāo)注和不定期的對特殊要求數(shù)據(jù)的采集、標(biāo)注,生產(chǎn)出各個(gè)AI模型需要的數(shù)據(jù),提供模型訓(xùn)練支持;每次模型訓(xùn)練完畢會有迭代上線,從而實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)系統(tǒng)和線上模型的一個(gè)閉環(huán)迭代,不斷的提升整體的語音產(chǎn)品的能力。


          以上便是對智能座艙車載語音系統(tǒng)的完整介紹


             如果你想更快入行智能汽車行業(yè),歡迎關(guān)注我們推出的《智能座艙產(chǎn)品特訓(xùn)營》課程,幫你鋪平產(chǎn)品之路。最新一期8月20號準(zhǔn)時(shí)開課。


          1)在今天的就業(yè)形式下,泛泛而談/隔行授課的課程很難具備實(shí)際價(jià)值。前兩年招聘的敞口大,或許有點(diǎn)幫助,今天不行了。所以,我們是一種采用重交付,22節(jié)直播課,拿公司真實(shí)項(xiàng)目,帶著大家練,以練帶學(xué),讓大家上班就能上手干活;


          2)還是基于現(xiàn)在的就業(yè)形勢,不太可能內(nèi)推很多人了(學(xué)員每個(gè)人都會內(nèi)推)。但10個(gè)人左右的小班的話,培訓(xùn)扎實(shí)一些,內(nèi)推過去成功率會高很多。


          3)費(fèi)用和成本。人數(shù)多了對于學(xué)員意義不大,人數(shù)少了我們邊際成本很高。只能提高費(fèi)用(我的認(rèn)知里付費(fèi)是人生最低成本最捷徑的升級方式),我們能覆蓋時(shí)間成本,學(xué)員能提高效率和學(xué)習(xí)質(zhì)量。


          4.我們彼此最寶貴的是時(shí)間??   


          基于以上幾點(diǎn)吧,所以有了以下的課程體系設(shè)計(jì)(內(nèi)含課程大綱和詳細(xì)的課表)大家感興趣的可以找我私聊:xuelaoban667

          瀏覽 771
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  激情毛片网站 | 午夜成人视频网址 | 久久黄色视频 | 色播婷婷五月 | 久碰香蕉视频 |