我和歐陽(yáng)娜娜一起搞研發(fā)
點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)
重磅干貨,第一時(shí)間送達(dá)
轉(zhuǎn)載:量子位
AI新聞播報(bào),開(kāi)車(chē)明星導(dǎo)航,現(xiàn)如今根據(jù)文本生成語(yǔ)音的AI技術(shù),那真是飛入尋常百姓家——見(jiàn)怪不怪了。
在這檔口,作為這背后AI語(yǔ)音合成技術(shù)的研發(fā)人員,除了常規(guī)收集語(yǔ)音數(shù)據(jù)、訓(xùn)練模型、優(yōu)化模型……
還能玩出什么花兒來(lái)?

……跟歐陽(yáng)娜娜一起搞研發(fā),算不算?(誤)
“公費(fèi)追星”是一種怎樣的體驗(yàn)
故事要從一個(gè)不太普通的周一上午說(shuō)起。
一大早,網(wǎng)易有道的語(yǔ)音工程師劉銀,就跟同事們一起搭上了飛往上海的飛機(jī)。
之所以說(shuō)不普通,是因?yàn)檫@趟出差不僅有工作任務(wù),還寄托了前方后方一眾工程師們的一點(diǎn)小期待。

這是有道詞典明星語(yǔ)音二期項(xiàng)目的第一個(gè)階段——訓(xùn)練數(shù)據(jù)錄制。
去年9月,有道詞典上線了王源的明星語(yǔ)音,成為學(xué)習(xí)領(lǐng)域第一個(gè)上線該功能的產(chǎn)品,大受用戶好評(píng)。于是在進(jìn)一步打磨模型之后,他們打算趁熱打鐵,上線新的女聲明星語(yǔ)音。
而音源,正是劉銀和同事們這次要近距離接觸交流的歐陽(yáng)娜娜。
對(duì)于這樣的出差機(jī)會(huì),劉銀鎮(zhèn)守本部的同事們直言:“羨慕壞了。這哪是出差,根本就是粉絲見(jiàn)面會(huì)?!?/p>
但其實(shí)對(duì)于劉銀來(lái)說(shuō),興奮之余,也并非沒(méi)有壓力。
在有道詞典的明星語(yǔ)音功能中,熟悉的明星聲音能為你讀出每一個(gè)單詞、每一個(gè)例句,就像這樣:
很顯然,他們本身不可能完整地去錄制全部的語(yǔ)音。
甚至因?yàn)闀r(shí)間成本的關(guān)系,最后能真正喂給TTS(語(yǔ)音合成)模型的源語(yǔ)音也非常有限:幾個(gè)小時(shí)的錄音,最后能用的可能只有一小部分。
要用極少的數(shù)據(jù),最終合成出高質(zhì)量的語(yǔ)音,從采集訓(xùn)練數(shù)據(jù)開(kāi)始,就要做到嚴(yán)格的把控。
有道的工程師們?yōu)榇俗隽藘墒譁?zhǔn)備。
一方面,結(jié)合一期項(xiàng)目的經(jīng)驗(yàn),不錄單詞,只錄簡(jiǎn)單的短句,在有限時(shí)間內(nèi)盡可能多地收集原始數(shù)據(jù)。
另一方面,就要靠劉銀等人跟歐陽(yáng)娜娜的臨場(chǎng)交流,需要他們以技術(shù)人員的視角來(lái)“導(dǎo)演”錄音過(guò)程,和歐陽(yáng)娜娜本人打出配合,以錄出可用性更高的語(yǔ)音數(shù)據(jù)。

所以這場(chǎng)“粉絲見(jiàn)面會(huì)”,還僅僅是一個(gè)開(kāi)始。
如何把歐陽(yáng)娜娜的聲音裝進(jìn)有道詞典里
雖然已經(jīng)有過(guò)一次上線王源語(yǔ)音的經(jīng)驗(yàn),但在訓(xùn)練模型這個(gè)環(huán)節(jié),包括劉銀在內(nèi)的有道AI語(yǔ)音團(tuán)隊(duì)4人小組,還是花費(fèi)了2周多的時(shí)間在模型的調(diào)整上。
主要的原因在于,單詞和句子所需要的語(yǔ)音合成效果不同,在建模方面需要分別進(jìn)行調(diào)整。
同時(shí),針對(duì)模型本身,有道的工程師們進(jìn)行了多次對(duì)比實(shí)驗(yàn),包括經(jīng)典的基于注意力的Tacotron2模型,業(yè)內(nèi)最新的Non-Attention架構(gòu)等,以期實(shí)現(xiàn)最接近歐陽(yáng)娜娜本人聲音質(zhì)感,同時(shí)發(fā)音準(zhǔn)確、地道的合成效果。

例句級(jí)別:基于注意力的Tacotron模型
具體而言,在例句級(jí)別,工程師們采用了基于注意力的Tacotron模型。
Tacotron模型使用的是經(jīng)典的Seq2Seq架構(gòu),通過(guò)注意力機(jī)制來(lái)解決編碼器和解碼器長(zhǎng)度不一致的問(wèn)題。
原始的Tacotron使用了Location Sensitive Attention。這種注意力機(jī)制的問(wèn)題在于,不夠魯棒,且收斂速度較慢,尤其是在面對(duì)數(shù)據(jù)量較少的情況時(shí),缺點(diǎn)尤為明顯。其原因主要在于,沒(méi)有充分利用聲學(xué)模型的單調(diào)性這一特點(diǎn)。
對(duì)此,有道工程師采用了改進(jìn)版的Foward Attention,來(lái)替換Location Sensitive Attention,同時(shí)對(duì)注意力對(duì)齊矩陣進(jìn)行損失約束,以提升模型的穩(wěn)定性和收斂速度。

另外,基礎(chǔ)的Tacotron建模方案在某些發(fā)音(如低頻發(fā)音)上效果不夠好。為此,工程師們還采用了ASR(語(yǔ)音識(shí)別)來(lái)打輔助。
通過(guò)ASR的輔助建模,合成的句子語(yǔ)音可懂性更強(qiáng),準(zhǔn)確性和韻律方面也有所提升,可以解決在純TTS方案中,有一些音發(fā)不出來(lái)的問(wèn)題。
單詞級(jí)別:基于時(shí)長(zhǎng)模型的Tacotron模型
再說(shuō)說(shuō)單詞方面。
前面也提到,為了節(jié)省時(shí)間成本,有道工程師們拿到的訓(xùn)練數(shù)據(jù)都是短句,沒(méi)有單詞。
這就導(dǎo)致在采用上述用于例句的TTS方案時(shí),合成的單詞讀音在韻律感和音調(diào)上會(huì)出現(xiàn)一定問(wèn)題,比如對(duì)于單音節(jié)或雙音節(jié)單詞,出現(xiàn)重復(fù)發(fā)音、漏音、語(yǔ)速過(guò)快等情形。
為此,有道工程師們嘗試了業(yè)內(nèi)最新模型架構(gòu)Non-Attentive Tacotron,通過(guò)時(shí)長(zhǎng)模型來(lái)替代注意力計(jì)算模塊。

這樣做的好處是,基于時(shí)長(zhǎng)的模型可以顯式地調(diào)節(jié)每一個(gè)音素的發(fā)音時(shí)長(zhǎng),讓合成出來(lái)的單詞讀音更接近真人朗讀的效果。
同時(shí),Non-Attentive模型在保持模型穩(wěn)定性方面也更具優(yōu)勢(shì)。
而除了模型方面的精挑細(xì)選、精細(xì)打磨,值得一提的是,網(wǎng)易有道AI語(yǔ)音算法團(tuán)隊(duì)此次的新明星語(yǔ)音新增了大量高采樣率的英文女聲數(shù)據(jù),將采樣率從16K提升到了24K,這就讓合成語(yǔ)音在音質(zhì)、聽(tīng)感和真實(shí)性方面有了進(jìn)一步的提升。
至于最終的效果如何評(píng)價(jià),請(qǐng)聽(tīng)——
私以為是歐陽(yáng)娜娜本娜沒(méi)錯(cuò)了。
“做產(chǎn)品是嚴(yán)肅的,但技術(shù)允許試錯(cuò)”
從項(xiàng)目啟動(dòng)到最終上線,此次有道詞典的明星語(yǔ)音功能升級(jí)項(xiàng)目,整個(gè)研發(fā)周期大概持續(xù)了一個(gè)月的時(shí)間。
時(shí)間上看還是有點(diǎn)緊張,但對(duì)于研發(fā)小組的成員們來(lái)說(shuō),對(duì)于項(xiàng)目的興奮感遠(yuǎn)遠(yuǎn)超過(guò)了追趕deadline帶來(lái)的焦慮。
原因很簡(jiǎn)單——幾個(gè)人都是根據(jù)興趣自愿加入到項(xiàng)目當(dāng)中的。

△網(wǎng)易有道AI語(yǔ)音團(tuán)隊(duì)
除了劉銀,小組中其余幾人的主要技術(shù)棧都不是語(yǔ)音合成。
比如主要負(fù)責(zé)例句模型的王曉強(qiáng),日常更多承擔(dān)的是語(yǔ)音識(shí)別方向的研發(fā)工作——這與語(yǔ)音合成幾乎可以說(shuō)是一個(gè)完全相反的方向。
甚至有一位同學(xué),此前的學(xué)習(xí)、工作內(nèi)容與深度學(xué)習(xí)完全不相關(guān),而是傳統(tǒng)的聲學(xué)前端方向。
畢業(yè)前,曾在多家公司有過(guò)實(shí)習(xí)經(jīng)歷的王曉強(qiáng)坦言:
這種允許跨領(lǐng)域的技術(shù)文化,其實(shí)是很少見(jiàn)的。
對(duì)于網(wǎng)易有道AI本身,這樣的包容度也著實(shí)可以貼上“大膽”的標(biāo)簽。
要知道,作為一款家喻戶曉的查詞工具,有道詞典是網(wǎng)易有道用戶量規(guī)模最大的產(chǎn)品,哪怕是一個(gè)微小功能的改動(dòng)都需要嚴(yán)肅對(duì)待,更不必說(shuō)像明星語(yǔ)音這樣重要的功能更新。

但實(shí)際上,這樣的包容和信任,反而給了劉銀、王曉強(qiáng)等人更大的動(dòng)力——自己選擇承擔(dān)的任務(wù),就一定要做好。
從另一個(gè)層面來(lái)看,允許研發(fā)人員跨領(lǐng)域進(jìn)行技術(shù)交流,并實(shí)際操作落地,也促成了整個(gè)技術(shù)團(tuán)隊(duì)的成長(zhǎng)——不把技術(shù)視野局限在自己的一畝三分地,在思考問(wèn)題時(shí),反而更容易激發(fā)創(chuàng)新的火花。
還有重要的一點(diǎn)是:
在自己感興趣的領(lǐng)域,有技術(shù)大佬帶著飛,不僅不用交學(xué)費(fèi),甚至還有工資拿,這真是太開(kāi)心了。
如果跟網(wǎng)易有道AI語(yǔ)音算法工程師們多聊一聊,就會(huì)發(fā)現(xiàn),這支技術(shù)團(tuán)隊(duì)總是能把研發(fā)做成一件既靠譜又歡樂(lè)的事。
他們大都很年輕,思維活躍,性格跳脫,也更勇于創(chuàng)新和嘗試。但同時(shí),從學(xué)校到職場(chǎng),從舊環(huán)境到新環(huán)境,他們又能用理工科的理性思維,快速地認(rèn)識(shí)到應(yīng)該“做什么”、“怎么做”。
這也反映在了一個(gè)個(gè)受到用戶好評(píng)的語(yǔ)音功能上:能夠自動(dòng)進(jìn)行語(yǔ)言檢測(cè)的語(yǔ)音翻譯功能、英語(yǔ)跟讀打分、明星語(yǔ)音……
并且,他們還“上得了廳堂,下得了廚房”。不僅能在產(chǎn)品層面持續(xù)推動(dòng)技術(shù)落地,學(xué)術(shù)、比賽成績(jī)也拿得出手。比如去年,他們就曾在全球語(yǔ)音頂會(huì)INTERSPEECH 2020“口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽”上名列前茅。

這樣的個(gè)人成長(zhǎng),背后也反映了網(wǎng)易有道對(duì)人才的重視。
有道AI語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人李慶輝就表示,一個(gè)腳踏實(shí)地的團(tuán)隊(duì),應(yīng)該給每個(gè)人充分的才華施展空間,而在這個(gè)空間之下,大家可以潛心鉆研技術(shù),在專(zhuān)注于自己側(cè)重點(diǎn)的情況下,去突破個(gè)人的局限。
而當(dāng)個(gè)人的能力不斷突破進(jìn)步,團(tuán)隊(duì)本身也就自然而然會(huì)成長(zhǎng)起來(lái)。
人才,就是公司、團(tuán)隊(duì)最大的財(cái)富。
(應(yīng)要求,文中所列人員均為化名)
— 完 —
推薦閱讀
國(guó)產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(wàn)(后續(xù))
年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了
關(guān)于程序員大白
程序員大白是一群哈工大,東北大學(xué),西湖大學(xué)和上海交通大學(xué)的碩士博士運(yùn)營(yíng)維護(hù)的號(hào),大家樂(lè)于分享高質(zhì)量文章,喜歡總結(jié)知識(shí),歡迎關(guān)注[程序員大白],大家一起學(xué)習(xí)進(jìn)步!


