XYZ“三原色”,助力AI決策類(lèi)人化

編者按:人類(lèi)認(rèn)知的三大屬性包括:?jiǎn)握Z(yǔ)言文本(X),音頻或視覺(jué)感官信號(hào)(Y)和多語(yǔ)言文本(Z)。微軟通過(guò)研究 X、Y、Z 三個(gè)領(lǐng)域的交匯處,發(fā)現(xiàn)了實(shí)現(xiàn) AI 能力又一次飛躍的可能——以更接近人類(lèi)的學(xué)習(xí)和理解方式進(jìn)行多感知和多語(yǔ)言學(xué)習(xí)。本文編譯自微軟技術(shù)院士、微軟 Azure 認(rèn)知服務(wù)首席技術(shù)官黃學(xué)東發(fā)表在微軟研究院博客的署名文章“A holistic representation toward integrative AI”。
在微軟,我們一直在尋求通過(guò)更全面、以人為本的方法去解決機(jī)器的學(xué)習(xí)和理解問(wèn)題,以超越現(xiàn)有技術(shù)的限制,推進(jìn) AI 發(fā)展。作為微軟 Azure 認(rèn)知服務(wù)首席技術(shù)官,我一直與一支由頂尖的科學(xué)家和工程師組成的團(tuán)隊(duì)通力合作,力爭(zhēng)實(shí)現(xiàn)這一目標(biāo)。
由于工作角色的關(guān)系,我能夠以獨(dú)特的視角觀察人類(lèi)認(rèn)知三大屬性之間的關(guān)系:?jiǎn)握Z(yǔ)言文本(X),音頻或視覺(jué)感官信號(hào)(Y)和多語(yǔ)言文本(Z)。在這三者的交匯處,存在著一種魔力,我們稱(chēng)之為 XYZ 代碼,如圖1所示。這種聯(lián)合描述將能夠創(chuàng)造更強(qiáng)大的 AI,可以更好地表達(dá)、傾聽(tīng)、觀察和理解人類(lèi)。我們相信,XYZ 代碼將有助于我們實(shí)現(xiàn)長(zhǎng)期的人工智能愿景:跨領(lǐng)域、跨模式和跨語(yǔ)言的遷移學(xué)習(xí)。我們的目標(biāo)在于研發(fā)出共同學(xué)習(xí)表征的預(yù)訓(xùn)練模型,進(jìn)而為廣泛的下游 AI 任務(wù)提供支持,而這與人類(lèi)今天的工作方式非常相似。
過(guò)去五年間,我們?cè)?a target="_blank" textvalue="對(duì)話(huà)式語(yǔ)音識(shí)別" data-itemshowtype="0" tab="innerlink" data-linktype="2">對(duì)話(huà)式語(yǔ)音識(shí)別、機(jī)器翻譯、對(duì)話(huà)式問(wèn)答、機(jī)器閱讀理解和圖像描述等基準(zhǔn)測(cè)試中都取得了能夠與人類(lèi)媲美的成績(jī)。這五項(xiàng)技術(shù)突破讓我們更加滿(mǎn)懷信心地渴望實(shí)現(xiàn) AI 能力的又一次飛躍——以更接近人類(lèi)學(xué)習(xí)和理解的方式進(jìn)行多感知和多語(yǔ)言學(xué)習(xí)。我相信,如果有下游 AI 任務(wù)中的外部知識(shí)作為支撐,XYZ 代碼將成為實(shí)現(xiàn)這個(gè)愿望的基本要素。

圖1:旨在實(shí)現(xiàn) AI 功能飛躍的 XYZ 代碼。我們可以通過(guò) X、Y、Z 三個(gè)領(lǐng)域的交叉獲得更強(qiáng)大的表示形式。

X 代碼旨在實(shí)現(xiàn)單語(yǔ)言文本通用表示。早在2013年,我們就通過(guò)語(yǔ)義嵌入最大化必應(yīng)搜索查詢(xún)詞和與之相關(guān)的文檔的互信息,其得到的文本表示即為?X 代碼。X 代碼很快就轉(zhuǎn)化至微軟必應(yīng)搜索服務(wù)推向了市場(chǎng),但當(dāng)時(shí)其架構(gòu)(如圖2所示)并未公布。近1-2年來(lái),在基于?Transformer 的神經(jīng)模型(例如?BERT、圖靈和?GPT-3)的加持下,X 代碼對(duì)基于文本的單語(yǔ)言預(yù)訓(xùn)練起到了顯著的提升作用。
X 代碼將查詢(xún)?cè)~(字)和文檔映射到高維意圖空間中。我們以500億個(gè)無(wú)重復(fù)的查詢(xún)-文檔對(duì)作為訓(xùn)練數(shù)據(jù),對(duì)這些表示的互信息加以最大化,X 代碼成功學(xué)會(huì)了大規(guī)模查詢(xún)與文檔之間的語(yǔ)義關(guān)系,并且在搜索排名、廣告點(diǎn)擊預(yù)測(cè)、查詢(xún)之間相似度以及文檔分組等各種自然語(yǔ)言處理任務(wù)中展現(xiàn)出了優(yōu)越的性能。

圖2:早在2013年,X 代碼通過(guò)互信息的最大化以改善大規(guī)模語(yǔ)義文本的表示學(xué)習(xí)。我們通過(guò)查詢(xún)及?URL?表示的聯(lián)合優(yōu)化,利用搜索引擎點(diǎn)擊日志對(duì)其進(jìn)行訓(xùn)練。在嵌入空間,X 代碼捕獲到其中單詞和 Web 文檔的相似性,進(jìn)而用于各種自然語(yǔ)言處理任務(wù)。圖示來(lái)自2013年的原始架構(gòu)。

我們對(duì)感知 AI 的探索及努力全都囊括在了 Y 代碼之中。我們用?Y 指代音頻或視覺(jué)信號(hào)。對(duì) X 和 Y 屬性的聯(lián)合優(yōu)化有助于圖像描述以及語(yǔ)音、表格或?OCR 識(shí)別。通過(guò) XY 聯(lián)合代碼或單純的 Y 代碼,我們旨在對(duì)文本、音頻或視覺(jué)信號(hào)進(jìn)行共同優(yōu)化。
在最近的 NOCAPS 基準(zhǔn)測(cè)試中,通過(guò)我們的努力,Y 代碼在圖像描述上的表現(xiàn)超越了人類(lèi),其架構(gòu)如圖3所示。通過(guò)該架構(gòu),我們能夠從視覺(jué)信息中確定新物體,并增加一個(gè)語(yǔ)言理解層組成描述它們之間關(guān)系的句子。在很多情況下,這比人類(lèi)寫(xiě)的描述更加準(zhǔn)確。NOCAPS 上的突破表明,X 和 Y 屬性之間的交集可以極大地幫助我們?cè)谙掠?AI 任務(wù)取得額外的提升。

圖3:應(yīng)用于圖像描述的?Y 代碼架構(gòu)(2020年)。
為了實(shí)現(xiàn) NOCAPS 上的突破,我們預(yù)訓(xùn)練了一個(gè)大型 AI 模型,用于文本和視覺(jué)模式的語(yǔ)義對(duì)齊。訓(xùn)練使用的數(shù)據(jù)集由帶文字標(biāo)簽的圖像進(jìn)行增強(qiáng),而不僅僅是完整的圖片描述,因?yàn)樗鼈兏子跇?gòu)建,而且學(xué)習(xí)的視覺(jué)詞匯量也更加豐富。這就像教孩子們讀書(shū)一樣,向他們解讀一本圖畫(huà)書(shū)時(shí),將蘋(píng)果的圖片與?“蘋(píng)果”這個(gè)單詞關(guān)聯(lián)起來(lái)。
在第二階段,我們對(duì)預(yù)訓(xùn)練的模型進(jìn)行了微調(diào),以教會(huì)這個(gè)模型如何組成句子。這個(gè)自動(dòng)圖像描述功能目前已經(jīng)集成到了 Office 365、LinkedIn 等廣受歡迎的微軟產(chǎn)品中,歡迎大家使用。此外,還有一款名為 Seeing AI 的手機(jī)應(yīng)用,正在為視力受損或喪失的人群提供服務(wù)。在 Office 365中,當(dāng)你將一張圖像粘貼到 PowerPoint、Word 或 Outlook 中時(shí),都會(huì)看到“替代文本”這個(gè)選項(xiàng)。這在易用性方面也大有裨益,因?yàn)閳D像所附的替代文本可以通過(guò)屏幕閱讀器朗讀出來(lái)。

Z 代碼也可稱(chēng)為多語(yǔ)言,其靈感來(lái)自于我們希望為全社會(huì)消除語(yǔ)言障礙的愿景。Z 代碼通過(guò)為一系列語(yǔ)言啟用基于文本的多語(yǔ)言神經(jīng)網(wǎng)絡(luò)翻譯,來(lái)擴(kuò)展單語(yǔ)言的 X 代碼。由于進(jìn)行了遷移學(xué)習(xí),而且相似語(yǔ)言之間存在共同的語(yǔ)素,所以我們顯著地改善了質(zhì)量,降低了成本,并提高了 Azure 認(rèn)知服務(wù)中機(jī)器翻譯功能的效率(更多詳細(xì)信息,見(jiàn)圖4)。
借助 Z 代碼,我們正在利用遷移學(xué)習(xí)的能力,提高低資源語(yǔ)言的質(zhì)量。低資源語(yǔ)言是指訓(xùn)練數(shù)據(jù)中所含語(yǔ)句數(shù)量少于100萬(wàn)的語(yǔ)言。我們旨在覆蓋大約1,500個(gè)低資源語(yǔ)言。隨著語(yǔ)言覆蓋范圍的擴(kuò)大,這些語(yǔ)言可用訓(xùn)練數(shù)據(jù)的缺乏所帶來(lái)的限制與日俱增。為了克服這個(gè)難題,我們通過(guò)多語(yǔ)言合并以及使用 BERT 式的掩碼語(yǔ)言模型開(kāi)發(fā)出了多語(yǔ)言神經(jīng)網(wǎng)絡(luò)翻譯。
在 Z 代碼中,我們把 BERT 視為將掩碼語(yǔ)言翻譯成初始語(yǔ)言的另一項(xiàng)翻譯任務(wù)。由于進(jìn)行了遷移學(xué)習(xí)以及相似語(yǔ)言之間的共享,因此我們可以用更少的數(shù)據(jù)極大地提升翻譯質(zhì)量,降低成本,并提高效率。現(xiàn)在,我們可以使用 Z 代碼來(lái)改進(jìn)翻譯和一般自然語(yǔ)言理解任務(wù),例如多語(yǔ)言命名的實(shí)體抽取等。無(wú)論人們使用何種語(yǔ)言,Z 代碼都可以幫助我們提供嵌入其中的通用語(yǔ)言。Z 代碼可謂“天生就是多語(yǔ)言的”。

圖4:Z代碼架構(gòu)圖。Z代碼以?xún)煞N方式使用遷移學(xué)習(xí)。首先,該模型使用多語(yǔ)言訓(xùn)練,這樣知識(shí)可以在多個(gè)語(yǔ)言之間實(shí)現(xiàn)遷移。其次,我們使用多任務(wù)訓(xùn)練,讓知識(shí)在不同任務(wù)之間遷移。例如,機(jī)器翻譯任務(wù)(MT)可以為自然語(yǔ)言理解任務(wù)提供幫助,而掩碼LM任務(wù)(MLM)或去噪自動(dòng)編碼器任務(wù)(DAE)可以為機(jī)器翻譯任務(wù)提供幫助,以此類(lèi)推。

多語(yǔ)言語(yǔ)音識(shí)別或翻譯是應(yīng)用 XYZ 代碼的實(shí)際情境之一,無(wú)論這涉及到的是簡(jiǎn)單的電梯多語(yǔ)言語(yǔ)音控制,還是向歐盟議會(huì)提供支持(其成員使用24種歐洲官方語(yǔ)言)。我們通過(guò)開(kāi)發(fā)基于 AI 的工具,努力克服語(yǔ)言障礙,實(shí)現(xiàn)了對(duì)歐洲議會(huì)辯論的自動(dòng)實(shí)時(shí)轉(zhuǎn)錄和翻譯,并且能夠從人工的校對(duì)和編輯中進(jìn)行學(xué)習(xí)。
在15世紀(jì)中期,德國(guó)發(fā)明家約翰內(nèi)斯·古騰堡(Johannes Gutenberg)造出了第一臺(tái)印刷機(jī)。古騰堡印刷機(jī)通過(guò)把金屬質(zhì)地的活字模組合成單詞,從而使大規(guī)模印刷書(shū)面材料成為了可能。這一進(jìn)步讓人類(lèi)能夠廣泛地傳播和分享知識(shí)。我們的團(tuán)隊(duì)正是從古騰堡身上汲取了靈感,XYZ 代碼的研發(fā)工作將 AI 功能分解成了細(xì)小的“積木”,以獨(dú)特的方式進(jìn)行組合,讓集成 AI 變得更加有效。
作為歷史上最重要的發(fā)明之一,古騰堡印刷機(jī)極大地改變了社會(huì)的演進(jìn)方式。我相信,我們正處于與之相似的 AI 功能“復(fù)興”過(guò)程之中。在當(dāng)今的數(shù)字化時(shí)代,我們的雄心壯志是開(kāi)發(fā)出可以像人類(lèi)一樣學(xué)習(xí)和推理的技術(shù),也就是說(shuō),讓技術(shù)能夠更像人類(lèi)在做出決策時(shí)那樣,對(duì)情境和意圖進(jìn)行推斷。
盡管我們志存高遠(yuǎn),但對(duì) XYZ 代碼的研究仍需腳踏實(shí)地,向著既定目標(biāo)邁進(jìn)。正如古騰堡印刷機(jī)徹底變革了人類(lèi)信息傳播的過(guò)程一樣,我們希望研發(fā)出能夠更好地與人類(lèi)能力相匹配的 AI,并不斷推動(dòng) AI 向前發(fā)展。


