Google-LyraGoogle 開源的語(yǔ)音編解碼器
Lyra 是一種高質(zhì)量、低比特率的語(yǔ)音編解碼器,即使在最慢的網(wǎng)絡(luò)上也可以進(jìn)行語(yǔ)音通信。為此,它應(yīng)用了傳統(tǒng)的編解碼器技術(shù),同時(shí)利用機(jī)器學(xué)習(xí) (ML) 的進(jìn)步和在數(shù)千小時(shí)數(shù)據(jù)上訓(xùn)練的模型來(lái)創(chuàng)建壓縮和傳輸語(yǔ)音信號(hào)的新方法。
Lyra 的架構(gòu)分為兩部分,編碼器和解碼器。當(dāng)有人對(duì)著手機(jī)說(shuō)話時(shí),編碼器會(huì)從他們的語(yǔ)音中捕捉獨(dú)特的屬性。這些語(yǔ)音屬性,也稱為特征,以 40ms 為單位提取,然后壓縮并通過網(wǎng)絡(luò)發(fā)送。解碼器的工作是將這些特征轉(zhuǎn)換回音頻波形,以便通過電話聽筒播放出來(lái)。將特征解碼回波形的過程是通過生成模型(Generative models)處理的,生成模型是一種特殊類型的機(jī)器學(xué)習(xí)模型,非常適合從有限的特征中重新創(chuàng)建一個(gè)完整的音頻波形。Lyra架構(gòu)與傳統(tǒng)的音頻編解碼器非常相似,幾十年來(lái),傳統(tǒng)的音頻編解碼器已經(jīng)構(gòu)成了互聯(lián)網(wǎng)通信的主干。這些傳統(tǒng)的編解碼器是基于數(shù)字信號(hào)處理(DSP)技術(shù),而 Lyra 的關(guān)鍵優(yōu)勢(shì)來(lái)自于生成模型重建高質(zhì)量語(yǔ)音信號(hào)的能力。
Lyra 的代碼是用 C++ 所編寫的,以提高速度、效率和互操作性,使用 Bazel 構(gòu)建框架和 GoogleTest 框架進(jìn)行徹底的單元測(cè)試,并基于 Apache 許可協(xié)議進(jìn)行分發(fā)。
