?谷歌大神Jeff Dean領(lǐng)銜,萬字展望5大AI趨勢

大數(shù)據(jù)文摘轉(zhuǎn)載自學(xué)術(shù)頭條
對于關(guān)心人工智能技術(shù)進(jìn)展的讀者來說,每年年底來自整個谷歌 research 團(tuán)隊撰寫的年終總結(jié),可謂是必讀讀物。
今天,由谷歌大神 Jeff Dean 領(lǐng)銜,這份總結(jié)雖遲但到。出于知識傳播目的,“學(xué)術(shù)頭條”現(xiàn)將全文翻譯如下,以饗讀者:
在過去的幾十年里,我見證了機(jī)器學(xué)習(xí)(ML, Machine Learning)和計算機(jī)科學(xué)(CS, Computer Science)領(lǐng)域的變化和發(fā)展。
早期的方法往往存在某些缺陷導(dǎo)致了失敗,然而,通過在這些方法上的不斷研究和改進(jìn),最終產(chǎn)生了一系列的現(xiàn)代方法,目前這些方法已經(jīng)非常成功。按照這種長期的發(fā)展模式,在未來幾年內(nèi),我認(rèn)為我們將會看到一些令人欣喜的進(jìn)展,這些進(jìn)展最終將造福數(shù)十億人的生活,產(chǎn)生比以往任何時候都更大的影響。
這篇文章中,我將重點(diǎn)介紹 ML 中可能產(chǎn)生重大影響的五個領(lǐng)域。對于其中的每一項,我都會討論相關(guān)的研究(主要是從 2021 年開始),以及我們在未來幾年可能會看到的方向和進(jìn)展。
趨勢1:更強(qiáng)大的通用 ML 模型 趨勢2:ML 的持續(xù)效率提高 趨勢3:ML 對個人和社會都越來越有益 趨勢4:ML 在科學(xué)、健康和可持續(xù)發(fā)展方面日益增長的效益 趨勢5:更深入和廣泛地理解 ML
例如,僅在過去的幾年中,模型已經(jīng)在語言領(lǐng)域取得突破性進(jìn)展,從數(shù)百億的數(shù)據(jù) tokens 中訓(xùn)練數(shù)十億個參數(shù)(如,11B 參數(shù) T5 模型),發(fā)展到數(shù)千億或上萬億的數(shù)據(jù) tokens 中訓(xùn)練高達(dá)數(shù)千億或上萬億的參數(shù)(如,密集模型,像 OpenAI 的 175 B 參數(shù) GPT3 模型、DeepMind 的 280B 參數(shù) Gopher 模型;稀疏模型,如谷歌的 600 B 參數(shù) GShard 模型、1.2T 參數(shù) GLaM 模型)。數(shù)據(jù)集和模型大小的增加導(dǎo)致了各種語言任務(wù)的準(zhǔn)確性的顯著提高,這可以從標(biāo)準(zhǔn)自然語言處理(NLP, Natural Language Processing)基準(zhǔn)測試任務(wù)的全面改進(jìn)中觀察到,正如對語言模型和機(jī)器翻譯模型的神經(jīng)網(wǎng)絡(luò)縮放法則(neural scaling laws)的研究預(yù)測的那樣。
這些先進(jìn)的模型中,有許多專注于單一但重要的書面語言模式上,并且在語言理解基準(zhǔn)和開放式會話能力方面顯示出了最先進(jìn)的成果,即是跨越一個領(lǐng)域的多個任務(wù)也是如此。除此之外,他們還表現(xiàn)出了令人興奮的能力,即僅用相對較少的訓(xùn)練數(shù)據(jù)便可以泛化新的語言任務(wù)。因為在某些情況下,對于一個新的任務(wù),幾乎不存在訓(xùn)練示例。簡單舉例,如改進(jìn)的長式問答(long-form question answering),NLP 中的零標(biāo)簽學(xué)習(xí),以及我們的 LaMDA 模型,該模型展示出了一種復(fù)雜的能力,可以進(jìn)行開放式對話,并在多個對話回合中保持重要的上下文。


生成模型的輸出也在大幅提高。在過去幾年里取得了顯著的進(jìn)步,尤其在圖像的生成模型中最為明顯。例如,最近的模型已經(jīng)證明了僅給定一個類別(如“irish setter”或“steetcar”)便可以創(chuàng)建逼真的圖像,可以“填充”一個低分辨率的圖像,以創(chuàng)建一個看起來十分自然的高分辨率匹配圖像,甚至可以構(gòu)建任意長度的自然場景。另一個例子是,可以將圖像轉(zhuǎn)換成一系列離散 tokens,然后使用自回歸生成模型以高保真度進(jìn)行合成。


除了先進(jìn)的單模態(tài)模型(single-modality models)外,大規(guī)模的多模態(tài)模型(multimodal models)也在陸續(xù)進(jìn)入人們的視野。這些模型是迄今為止最前沿的模型,因為它們可以接受多種不同的輸入模式(例如,語言、圖像、語音、視頻),而且在某些情況下,還可以產(chǎn)生不同的輸出模式,例如,從描述性的句子或段落生成圖像,或用人類語言簡要描述圖像的視覺內(nèi)容。這是一個令人驚喜的研究方向,因為類似于現(xiàn)實(shí)世界,在多模態(tài)數(shù)據(jù)中更容易學(xué)習(xí)(例如,閱讀一些文章并看時輔以演示比僅僅閱讀有用得多)。因此,將圖像和文本配對可以幫助完成多種語言的檢索任務(wù),并且更好地理解如何對文本和圖像輸入進(jìn)行配對,可以對圖像字幕任務(wù)(image captioning tasks)帶來更好的改進(jìn)效果。同樣,在視覺和文本數(shù)據(jù)上的聯(lián)合訓(xùn)練,也有助于提高視覺分類任務(wù)的準(zhǔn)確性和魯棒性,而在圖像、視頻和音頻任務(wù)上的聯(lián)合訓(xùn)練則可以提高所有模式的泛化性能。還有一些誘人的跡象表明,自然語言可以作為圖像處理的輸入,告訴機(jī)器人如何與這個世界互動,以及控制其他軟件系統(tǒng),這預(yù)示著用戶界面的開發(fā)方式可能會發(fā)生變化。這些模型處理的模式將包括語音、聲音、圖像、視頻和語言,甚至可能擴(kuò)展到結(jié)構(gòu)化數(shù)據(jù)、知識圖和時間序列數(shù)據(jù)等等。

所有這些趨勢都指向訓(xùn)練能夠處理多種數(shù)據(jù)模式并解決數(shù)千或數(shù)百萬任務(wù)的高能力通用模型的方向。通過構(gòu)建稀疏性模型,使得模型中唯一被給定任務(wù)激活的部分是那些針對其優(yōu)化過的部分,由此一來,這些多模態(tài)模型可以變得更加高效。在未來的幾年里,我們將在名為“Pathways”的下一代架構(gòu)和綜合努力中追求這一愿景。隨著我們把迄今為止的許多想法結(jié)合在一起,我們期望在這一領(lǐng)域看到實(shí)質(zhì)性的進(jìn)展。

由于計算機(jī)硬件設(shè)計、ML 算法和元學(xué)習(xí)(meta-learning)研究的進(jìn)步,效率的提高正在推動 ML 模型向更強(qiáng)的能力發(fā)展。ML 管道的許多方面,從訓(xùn)練和執(zhí)行模型的硬件到 ML 體系結(jié)構(gòu)的各個組件,都可以在保持或提高整體性能的同時進(jìn)行效率優(yōu)化。這些不同的線程中的每一個都可以通過顯著的乘法因子來提高效率,并且與幾年前相比,可以將計算成本降低幾個數(shù)量級。這種更高的效率使許多關(guān)鍵的進(jìn)展得以實(shí)現(xiàn),這些進(jìn)展將繼續(xù)顯著地提高 ML 的效率,使更大、更高質(zhì)量的 ML 模型能夠以更有效的成本開發(fā),并進(jìn)一步普及訪問。我對這些研究方向感到非常興奮!
ML加速器性能的持續(xù)改進(jìn):
每一代ML加速器都在前幾代的基礎(chǔ)上進(jìn)行了改進(jìn),使每個芯片的性能更快,并且通常會增加整個系統(tǒng)的規(guī)模。其中,擁有大量芯片的 pods,這些芯片通過高速網(wǎng)絡(luò)連接在一起,可以提高大型模型的效率。
當(dāng)然,移動設(shè)備上的 ML 能力也在顯著增加。Pixel 6 手機(jī)配備了全新的谷歌張量處理器(Google Tensor processor),集成了強(qiáng)大的ML加速器,以更好地支持重要的設(shè)備上功能。
我們使用 ML 來加速各種計算機(jī)芯片的設(shè)計(下面將詳細(xì)介紹),這也帶來了好處,特別是在生產(chǎn)更好的 ML 加速器方面。

即使在硬件沒有變化的情況下,對于 ML 加速器的編譯器和系統(tǒng)軟件的其他優(yōu)化也可以顯著提高效率。例如,“自動調(diào)優(yōu)多通道機(jī)器學(xué)習(xí)編譯器的靈活方法”展示了如何使用 ML 來執(zhí)行編譯設(shè)置的自動調(diào)優(yōu),從而在相同的底層硬件上為一套 ML 程序?qū)崿F(xiàn) 5-15%(有時高達(dá) 2.4 倍的改進(jìn))的全面性能改進(jìn)。GSPMD 描述了一個基于 XLA 編譯器的自動并行化系統(tǒng),該系統(tǒng)能夠擴(kuò)展大多數(shù)深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),超出加速器的內(nèi)存容量,并已應(yīng)用于許多大型模型,如 GShard-M4、LaMDA、BigSSL、ViT、MetNet-2 和 GLaM 等等,在多個領(lǐng)域上帶來了最先進(jìn)的結(jié)果。

圖丨在 150 ML 模型上使用基于 ML 的編譯器自動調(diào)優(yōu),可以加快端到端模型的速度。包括實(shí)現(xiàn) 5% 或更多改進(jìn)比例的模型。條形顏色代表了優(yōu)化不同模型組件的相對改進(jìn)程度。
模型體系結(jié)構(gòu)的不斷改進(jìn),大大減少了許多問題達(dá)到給定精度水平所需的計算量。例如,我們在 2017 年開發(fā)的 Transformer 結(jié)構(gòu),能夠在幾個 NLP 任務(wù)和翻譯基準(zhǔn)上提高技術(shù)水平。與此同時,可以使用比各種其他流行方法少 10 倍甚至百倍的計算來實(shí)現(xiàn)這些結(jié)果,例如作為 LSTMs 和其他循環(huán)架構(gòu)。類似地,視覺 Transformer 能夠在許多不同的圖像分類任務(wù)中顯示出改進(jìn)的最新結(jié)果,盡管使用的計算量比卷積神經(jīng)網(wǎng)絡(luò)少 4 到 10 倍。
更高效模型架構(gòu)的機(jī)器驅(qū)動發(fā)現(xiàn):
神經(jīng)體系結(jié)構(gòu)搜索(NAS, Neural Architecture Search)可以自動發(fā)現(xiàn)對于給定的問題域更有效、新穎的 ML 體系結(jié)構(gòu)。NAS 的主要優(yōu)勢是,它可以大大減少算法開發(fā)所需的工作量,因為 NAS 在每個搜索空間和問題域組合中只需要一次性的工作。此外,雖然最初執(zhí)行 NAS 的工作可能在計算上很昂貴,但由此產(chǎn)生的模型可以大大減少下游研究和生產(chǎn)環(huán)境中的計算,從而大大減少整體資源需求。例如,為了發(fā)現(xiàn)演化 Transformer(Evolved Transformer)而進(jìn)行的一次性搜索只產(chǎn)生了 3.2 噸的 CO2e,但是生成了一個供 NLP 社區(qū)中的任何人使用的模型,該模型比普通的 Transformer 模型的效率高 15-20%。最近對 NAS 的使用發(fā)現(xiàn)了一種更高效的體系結(jié)構(gòu) Primer(開源),與普通的 Transformer 模型相比,它降低了4倍的訓(xùn)練成本。通過這種方式,NAS 搜索的發(fā)現(xiàn)成本通常可以通過使用發(fā)現(xiàn)的更高效的模型體系結(jié)構(gòu)得到補(bǔ)償,即使它們只應(yīng)用于少數(shù)下游任務(wù)。


稀疏的使用:
稀疏性是算法的另一個重要的進(jìn)步,它可以極大地提高效率。稀疏性是指模型具有非常大的容量,但對于給定的任務(wù)、示例或 token,僅激活模型的某些部分。2017 年,我們推出了稀疏門控專家混合層(Sparsely-Gated Mixture-of-Experts Layer),在各種翻譯基準(zhǔn)上展示了更好的性能,同時在計算量上也保持著一定的優(yōu)勢,比先前最先進(jìn)的密集 LSTM 模型少 10 倍。最近,Switch Transformer 將專家混合風(fēng)格的架構(gòu)與 Transformer 模型架構(gòu)結(jié)合在一起,在訓(xùn)練時間和效率方面比密集的 T5-Base Transformer 模型提高了 7 倍。GLaM 模型表明,Transformer 和混合專家風(fēng)格的層可以組合在一起,可以產(chǎn)生一個新的模型。該模型在 29 個基準(zhǔn)線上平均超過 GPT-3 模型的精度,使用的訓(xùn)練能量減少 3 倍,推理計算減少 2 倍。稀疏性的概念也可以用于降低核心 Transformer 架構(gòu)中注意力機(jī)制的成本。

這些提高效率的方法中的每一種都可以結(jié)合在一起,這樣,與美國平均使用 P100 GPUs 訓(xùn)練的基線 Transformer 模型相比,目前在高效數(shù)據(jù)中心訓(xùn)練的等效精度語言模型的能源效率提高了 100 倍,產(chǎn)生的 CO2e 排放量減少了 650 倍。這甚至還沒有考慮到谷歌的碳中和(carbon neutral),100% 的可再生能源抵消。
人們比以往任何時候都依賴他們的手機(jī)攝像頭來記錄日常生活和創(chuàng)作靈感。機(jī)器學(xué)習(xí)在計算攝影中的巧妙應(yīng)用提升了手機(jī)相機(jī)的功能,使它們更易于使用,產(chǎn)生了更高質(zhì)量的圖像。一些先進(jìn)的技術(shù),如改進(jìn)的 HDR+,在弱光下的拍攝能力,更好的人像處理功能,及更大的包容性使得手機(jī)攝像可以更真實(shí)地反映拍攝對象。Google Photos 中基于機(jī)器學(xué)習(xí)的強(qiáng)大工具如 Magic Eraser 等還能進(jìn)一步優(yōu)化照片。


考慮到這些功能使用數(shù)據(jù)的敏感性,把它們默認(rèn)設(shè)置為不共享是很重要的。以上提到的許多功能都在 Android的Private Compute Core 中運(yùn)行。這是一個開源的、安全的環(huán)境,與操作系統(tǒng)的其余部分隔離開。Android 確保未經(jīng)用戶同意,不會將在 Private Compute Core 中的數(shù)據(jù)共享給任何應(yīng)用程序。Android 還阻止 Private Compute Core 的任何功能直接訪問網(wǎng)絡(luò)。功能通過一小部分開源 API 與 Private Compute Services 進(jìn)行通信,這樣就能剔除身份敏感信息并使用聯(lián)邦學(xué)習(xí)、聯(lián)邦分析和私人信息檢索等功能保護(hù)隱私。
這些技術(shù)對于發(fā)展下一代計算和交互范例至關(guān)重要,個人或公共設(shè)備需要在不損害隱私的情況下學(xué)習(xí)并幫助訓(xùn)練(算法)模型。聯(lián)邦的無人監(jiān)督學(xué)習(xí)方法,可以創(chuàng)造出越來越智能的系統(tǒng)。這些系統(tǒng)的交互更加直觀,更像是一個社交實(shí)體,而不是一臺機(jī)器。只有對我們的技術(shù)進(jìn)行深刻變革,才有可能廣泛而公平地?fù)碛羞@些智能系統(tǒng),讓它們支持神經(jīng)計算。
計算機(jī)視覺提供新的洞察力:
在過去的十年里,計算機(jī)視覺的進(jìn)步使計算機(jī)能夠完成不同科學(xué)領(lǐng)域的各種任務(wù)。在神經(jīng)科學(xué)中,自動重建技術(shù)可以從腦組織薄片的高分辨率電子顯微鏡圖像中重現(xiàn)腦組織的神經(jīng)連接結(jié)構(gòu)。前些年,谷歌為研究果蠅、老鼠的大腦創(chuàng)造了這樣的資源,去年,我們與哈佛大學(xué)的利希特曼實(shí)驗室(Lichtman Lab)合作,進(jìn)行了第一次大規(guī)模的人類皮質(zhì)突觸連接研究。該研究跨越了所有皮層的多個細(xì)胞類型。這項工作的目標(biāo)是幫助神經(jīng)科學(xué)家研究令人驚嘆的人類大腦。例如,下圖顯示了成人大腦中約 860 億個神經(jīng)元中的 6 個。



除了推進(jìn)基礎(chǔ)科學(xué),人工智能還可以在更廣泛的范圍內(nèi)為醫(yī)學(xué)和人類健康做出貢獻(xiàn)。在健康領(lǐng)域利用計算機(jī)科學(xué)并不是什么新鮮事。但機(jī)器學(xué)習(xí)打開了新的大門,帶來了新的機(jī)遇和挑戰(zhàn)。
以基因組學(xué)領(lǐng)域為例。計算機(jī)從一開始就對基因組學(xué)很重要,但是機(jī)器學(xué)習(xí)增加了新的功能并顛覆了舊的模式。當(dāng)谷歌的研究人員探索這一領(lǐng)域的工作時,許多專家認(rèn)為利用深度學(xué)習(xí)來推斷基因變異的想法是牽強(qiáng)的。如今,這種機(jī)器方法被認(rèn)為是最先進(jìn)的。谷歌發(fā)布的開源軟件 DeepConsensus 以及與加州大學(xué)洛杉磯分校(UCSC)合作的 Pepper-DeepVariant 提供了尖端的信息學(xué)支持。我們希望更多的快速測序可以在近期進(jìn)入實(shí)際應(yīng)用領(lǐng)域,并對患者產(chǎn)生實(shí)際影響。
以基因組學(xué)領(lǐng)域為例。計算技術(shù)一直對基因組學(xué)非常重要,但機(jī)器學(xué)習(xí)方法改變了之前的舊模式,并增添了新的功能。最初,谷歌的研究人員使用機(jī)器學(xué)習(xí)在該領(lǐng)域展開研究時,許多專家認(rèn)為使用深度學(xué)習(xí)技術(shù)從測序儀中推斷是否存在基因變異的想法是不可行的。但如今,機(jī)器學(xué)習(xí)是最先進(jìn)的研究方法。并且未來機(jī)器學(xué)習(xí)將扮演更重要的角色,比如基因組學(xué)公司正在開發(fā)更精確、更快的新測序儀,它需要匹配更好的推理能力。我們也發(fā)布了 DeepConsensus 開源軟件,以及與 UCSC 合作的 PEPPER-DeepVariant,為這些新儀器提供最前沿的信息學(xué)支持。我們希望這些性能更強(qiáng)的測序儀可以盡快應(yīng)用在實(shí)際患者中并產(chǎn)生有益影響。


谷歌在 2016 年發(fā)表了一篇關(guān)于深度學(xué)習(xí)在糖尿病視網(wǎng)膜病變篩查中應(yīng)用的論文,被《美國醫(yī)學(xué)會雜志》(JAMA)的編輯選為十年來最具影響力的十大論文之一。這意味著它不僅在機(jī)器學(xué)習(xí)和健康方面具有廣泛影響力,并且也是十年來最具影響的 JAMA 論文之一。而且我們的研究影響并不僅限于對論文,而是擴(kuò)展到現(xiàn)實(shí)世界中建立系統(tǒng)的能力。通過我們的全球合作伙伴網(wǎng)絡(luò),該項目已經(jīng)幫助印度、泰國、德國和法國的數(shù)萬名患者進(jìn)行疾病篩查,否則他們自己可能沒有能力接受這種威脅視力疾病的檢測。
我們希望看到更多機(jī)器學(xué)習(xí)輔助系統(tǒng)的部署,以應(yīng)用到改善乳腺癌篩查、檢測肺癌、加速癌癥放射治療、標(biāo)記異常x光和對前列腺癌活檢分級上。機(jī)器學(xué)習(xí)為每個領(lǐng)域都提供了新的幫助。比如機(jī)器學(xué)習(xí)輔助的結(jié)腸鏡檢查,就是一個超越了原有基礎(chǔ)的例子。結(jié)腸鏡檢查不僅僅只是診斷結(jié)腸癌,還可以在手術(shù)過程中切除息肉,是阻止疾病發(fā)展和預(yù)防嚴(yán)重疾病的前沿陣地。在該領(lǐng)域中,我們已經(jīng)證明機(jī)器學(xué)習(xí)可以幫助確保醫(yī)生不遺漏息肉,幫助檢測難以發(fā)現(xiàn)的息肉,還可以增加維度來提高準(zhǔn)確度,例如應(yīng)用同步定位和繪圖技術(shù)。在與耶路撒冷 Shaare Zedek Medical Center 醫(yī)療中心的合作中,實(shí)驗證明這些系統(tǒng)可以實(shí)時工作,平均每次手術(shù)可以檢測到一個可能會漏檢的息肉,而且每次手術(shù)的錯誤警報少于 4 次。

盡管機(jī)器學(xué)習(xí)可能對擴(kuò)大訪問量和提高臨床準(zhǔn)確性很重要,但我們發(fā)現(xiàn)有新的趨勢正在出現(xiàn):使用機(jī)器學(xué)習(xí)幫助人們的日常健康和幸福。我們?nèi)粘J褂玫脑O(shè)備都部署有強(qiáng)大的傳感器,可以幫助人們普及健康指標(biāo)和信息,使人們可以對自己的健康做出更明智的決定。目前已經(jīng)有了可以評估心率和呼吸頻率的智能手機(jī)攝像頭,并且無需額外的硬件設(shè)備。Nest Hub 設(shè)備可以支持非接觸式睡眠感知,讓用戶更好地了解自己的夜間健康狀況。我們可以在自己的 ASR 系統(tǒng)中顯著提高無序語音識別的質(zhì)量,也可以使用機(jī)器學(xué)習(xí)幫助有語音障礙的人重塑聲音,使他們能夠用自己的聲音交流。也許,使用機(jī)器學(xué)習(xí)讓智能手機(jī)幫助人們更好地研究皮膚病狀況,或者幫助視力有限的人慢跑,并不是遙不可及的:這些機(jī)遇證明未來是光明的。

機(jī)器學(xué)習(xí)在氣候危機(jī)中的應(yīng)用:
氣候變化也是一個至關(guān)重要的領(lǐng)域,對人類來說具有非常緊迫的威脅。我們需要共同努力來扭轉(zhuǎn)有害排放的趨勢,以確保未來的安全和繁榮。而更好地了解不同選擇對氣候的影響,可以幫助我們用多種方式應(yīng)對這一挑戰(zhàn)。
為此,我們在谷歌地圖中推出了環(huán)保路線,預(yù)計該方法可以每年節(jié)省約 100 萬噸二氧化碳排放(相當(dāng)于在道路上減少 20 多萬輛汽車)。最近的實(shí)驗研究表明,在美國鹽湖城使用谷歌地圖導(dǎo)航可以實(shí)現(xiàn)更快、更環(huán)保的路線,節(jié)省了 1.7% 的二氧化碳排放量和 6.5% 的旅行時間。此外,還可以讓地圖軟件更好地適應(yīng)電動汽車,幫助緩解里程焦慮,鼓勵人們使用無排放的交通工具。我們還與世界各地的城市進(jìn)行合作,利用匯總的歷史交通數(shù)據(jù),幫助改善交通燈計時設(shè)置。在以色列和巴西進(jìn)行的一項早期試點(diǎn)研究顯示,有檢查十字路口的燃油消耗和延誤時間減少了 10-20%。

并且,我們還得努力應(yīng)對越來越常見的火災(zāi)和洪水(像數(shù)百萬加州人一樣不得不適應(yīng)定期的“火災(zāi)季節(jié)”)。去年,我們發(fā)布了一份由衛(wèi)星數(shù)據(jù)支持的火災(zāi)邊界地圖,幫助美國人輕松地在自己設(shè)備上了解火災(zāi)的大致規(guī)模和位置。我們還將谷歌上所有的火災(zāi)信息進(jìn)行整合,并在全球范圍內(nèi)進(jìn)行推出。我們也一直在應(yīng)用圖形優(yōu)化算法來幫助優(yōu)化火災(zāi)疏散路線,以幫助人們安全逃離快速推進(jìn)的火災(zāi)。2021 年,我們的洪水預(yù)報計劃的預(yù)警系統(tǒng)覆蓋范圍擴(kuò)大到 3.6 億人,是前一年的三倍以上,并向面臨洪災(zāi)風(fēng)險人群的移動設(shè)備直接發(fā)送了 1.15 億多條通知。我們還首次在現(xiàn)實(shí)世界系統(tǒng)中部署了基于 LSTM(長短時記憶網(wǎng)絡(luò))的預(yù)測模型和 Manifold 模型,并分享了系統(tǒng)中所有組件的詳細(xì)信息。

基于用戶在線產(chǎn)品活動的推薦系統(tǒng)是研究的重點(diǎn)領(lǐng)域。由于這些推薦系統(tǒng)通常由多個不同部分組成,理解它們的公平性往往需要深入了解單個部分以及各個部分組合在一起時的行為。最近的研究工作揭示了提高單個部分和整個推薦系統(tǒng)的公平性的方法,有助于更好地理解這些關(guān)系。此外,當(dāng)從用戶的隱藏活動中學(xué)習(xí)時,推薦系統(tǒng)以一種無偏差的方式進(jìn)行學(xué)習(xí)。因為從以前用戶所展示的項目中直接學(xué)習(xí)的方法中會表現(xiàn)出很明顯的偏差。并且如果不對這種偏差進(jìn)行糾正,推薦產(chǎn)品被展示的位置越顯眼,它們就越容易被頻繁推薦給未來的用戶。
與推薦系統(tǒng)一樣,上下文環(huán)境在機(jī)器翻譯中也很重要。因為大多數(shù)機(jī)器翻譯系統(tǒng)都是獨(dú)立地翻譯單個句子,并沒有額外的上下文環(huán)境。在這種情況下,它們往往會加強(qiáng)與性別、年齡或其他領(lǐng)域有關(guān)的偏見。為此,我們長期以來一直在研究如何減少翻譯系統(tǒng)中的性別偏見。為了幫助翻譯界研究,去年我們基于維基百科傳記的翻譯來研究翻譯中的性別偏見,并發(fā)布了一個數(shù)據(jù)集。
部署機(jī)器學(xué)習(xí)模型的另一個常見問題是分布轉(zhuǎn)移:如果訓(xùn)練模型的數(shù)據(jù)統(tǒng)計分布與輸入模型的數(shù)據(jù)統(tǒng)計分布不一致,那么有時模型的行為是不可預(yù)測的。最近的研究中,我們使用 Deep Bootstrap 框架來比較現(xiàn)實(shí)世界和“理想世界”(ideal world)的區(qū)別,前者的訓(xùn)練數(shù)據(jù)是有限的,而后者擁有無限的數(shù)據(jù)。更好地理解模型在這兩種情況下(真實(shí)與理想)的行為,可以幫助我們開發(fā)出更適用于新環(huán)境的模型,并減少在固定訓(xùn)練數(shù)據(jù)集上的偏差。
盡管人們對機(jī)器學(xué)習(xí)算法和模型開發(fā)的工作有極大的關(guān)注,但研究者們對于數(shù)據(jù)收集和數(shù)據(jù)集的管理往往關(guān)注較少,但這些研究也非常重要,因為機(jī)器學(xué)習(xí)模型所訓(xùn)練的數(shù)據(jù)可能是下游應(yīng)用中出現(xiàn)偏見和公平性問題的潛在原因。分析機(jī)器學(xué)習(xí)中的數(shù)據(jù)級聯(lián)可以幫助我們識別機(jī)器學(xué)習(xí)項目生命周期中,可能對結(jié)果產(chǎn)生重大影響的環(huán)節(jié)。這項關(guān)于數(shù)據(jù)級聯(lián)的研究已經(jīng)在修訂后的 PAIR 指南中為數(shù)據(jù)收集和評估提供了證據(jù)支持,該指南主要面向的是機(jī)器學(xué)習(xí)的開發(fā)人員和設(shè)計人員。


對每個人來說,創(chuàng)建更具包容性和更少偏見的公共數(shù)據(jù)集是幫助改善機(jī)器學(xué)習(xí)領(lǐng)域的一個重要方法。2016 年,我們發(fā)布了開放圖像(Open Images)數(shù)據(jù)集,它包含了約 900 萬張圖片,這些圖片用圖像標(biāo)簽標(biāo)注,涵蓋了數(shù)千個對象類別和 600 類的邊界框標(biāo)注。
去年,我們在開放圖像擴(kuò)展(Open Images Extended)集合中引入了包容性人物標(biāo)注(MIAP)數(shù)據(jù)集。該集合包含更完整人類層次結(jié)構(gòu)的邊界框標(biāo)注,每個標(biāo)注都帶有與公平性相關(guān)的屬性,包括感知的性別和年齡范圍。隨著人們越來越致力于減少不公平的偏見,作為負(fù)責(zé)任的人工智能(Responsible AI)研究的一部分,我們希望這些標(biāo)注能夠鼓勵已經(jīng)使用開放圖像數(shù)據(jù)集的研究人員在他們的研究中納入公平性分析。
我們的團(tuán)隊并不是唯一一個創(chuàng)建數(shù)據(jù)集來改善機(jī)器學(xué)習(xí)效果的團(tuán)隊,我們還創(chuàng)建了“數(shù)據(jù)集搜索”(Dataset Search)方法,使得無論來自哪里的用戶都可以在我們的幫助下發(fā)現(xiàn)新的和有用的數(shù)據(jù)集。
社區(qū)互動:
另一個潛在的問題是,機(jī)器學(xué)習(xí)算法生成的模型有時會產(chǎn)生缺乏證據(jù)支持的結(jié)果。為了在問題回答、總結(jié)和對話中解決這一問題,谷歌開發(fā)了一個新的框架來衡量算法結(jié)果是否可以歸因于特定的來源。我們發(fā)布了注釋指南,并證明可以使用這項可靠的技術(shù)來對候選模型進(jìn)行評估。
模型的交互式分析和調(diào)試仍然是負(fù)責(zé)任地使用機(jī)器學(xué)習(xí)語言的關(guān)鍵。谷歌對 Language Interpretability Tool 的技術(shù)和功能進(jìn)行了更新。更新包括對圖像和表格數(shù)據(jù)的支持,從 What-If Tool 中繼承下來的各種功能,以及 Testing with Concept Activation Vectors 技術(shù)對公平性分析的內(nèi)置支持。機(jī)器學(xué)習(xí)系統(tǒng)的可解釋性也是谷歌提出的“負(fù)責(zé)任的 AI 愿景”(Responsible AI vision)的關(guān)鍵部分。在與 DeepMind 的合作下,谷歌開始了解自我訓(xùn)練的AlphaZero國際象棋系統(tǒng)是如何獲取人類的象棋概念的。
谷歌還在努力拓寬“負(fù)責(zé)任的人工智能”的視角和格局,使其超越西方的局限。一項最近的研究提出在非西方背景下,基于西方機(jī)構(gòu)和基建的算法公平概念并不適用。研究為印度的算法公平研究提供了新方向和新途徑。谷歌正在幾大洲積極開展調(diào)查,以更好地了解人們對人工智能的看法和偏好。西方視角下的算法公平研究傾向于只關(guān)注少數(shù)幾個問題,因此導(dǎo)致很多非西方背景下的算法偏見問題被忽略。為了解決這一差距,我們與密歇根大學(xué)(University Of Michigan)合作,開發(fā)了一種弱監(jiān)督薄的自然語言處理(NLP)模型,以便在更廣泛的地理文化語境中檢測出語言偏見,反映人類在不同的地理環(huán)境中對攻擊性和非攻擊性語言的判斷。
此外,谷歌還探索了機(jī)器學(xué)習(xí)在發(fā)展中國家的應(yīng)用,包括開發(fā)一個以農(nóng)民為中心的機(jī)器學(xué)習(xí)研究方案。通過這項工作,我們希望鼓勵人工智能領(lǐng)域更多思考如何將機(jī)器學(xué)習(xí)支持的解決方案帶給千萬小農(nóng)戶,以改善他們的生活和社區(qū)。
讓整個社會的利益相關(guān)方參與到機(jī)器學(xué)習(xí)研發(fā)部署的各階段是谷歌正在努力的方向,這讓谷歌牢記什么才是最需要解決的問題。本著這一原則,我們和非營利組織負(fù)責(zé)人、政府和非政府組織代表以及其他專家之間舉行了健康公平研究峰會(Health Equity Research Summit),討論如何將更多的公平帶入整個機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng),使公平原則從最初的解決問題貫穿到結(jié)果評估的最后一步。
從社會出發(fā)的研究方法讓谷歌在機(jī)器學(xué)習(xí)的系統(tǒng)中就思考數(shù)字福利和種族平等問題。谷歌希望更多了解非洲裔美國人對 ASR 系統(tǒng)的體驗。谷歌也在更廣泛地聽取公眾的意見,以了解機(jī)器學(xué)習(xí)如何在重大生活事件中提供幫助,例如提供家庭照顧。
隨著機(jī)器學(xué)習(xí)能力的提高和在許多領(lǐng)域的影響,機(jī)器學(xué)習(xí)中的隱私保護(hù)是一個研究重點(diǎn)。沿著這個思路,我們力求解決大型模型中的隱私問題。谷歌既強(qiáng)調(diào)訓(xùn)練數(shù)據(jù)可以從大型模型中提取,也指出了如何在大型模型(例如 BERT)中實(shí)現(xiàn)隱私保護(hù)。除了上面提到的聯(lián)邦學(xué)習(xí)和分析技術(shù),我們還一直在使用其他原則性和實(shí)用性的機(jī)器學(xué)習(xí)技術(shù)來保護(hù)隱私。例如私有聚類、私有個性化、私有矩陣補(bǔ)全、私有加權(quán)采樣、私有分位數(shù)、半空間的私有穩(wěn)健學(xué)習(xí),以及私有 PAC 學(xué)習(xí)。此外,我們一直在擴(kuò)展可針對不同應(yīng)用和威脅模型定制的隱私概念,包括標(biāo)簽隱私和用戶與項目級別隱私。
數(shù)據(jù)集:
谷歌認(rèn)識到開放數(shù)據(jù)集對機(jī)器學(xué)習(xí)和相關(guān)研究領(lǐng)域的普遍價值,我們繼續(xù)擴(kuò)大我們的開源數(shù)據(jù)集和資源,并在 Google DataSet Search 中增加了開放數(shù)據(jù)集的全球索引。今年,我們發(fā)布了一系列各個研究領(lǐng)域的數(shù)據(jù)集和工具:

對機(jī)器學(xué)習(xí)和計算機(jī)科學(xué)來說,這是一個激動人心的時代。通過處理語言、視覺和聲音,計算機(jī)理解周圍的世界并與之互動的能力在不斷提高。同時計算機(jī)也在不斷為人類開拓新疆界貢獻(xiàn)力量。前文所述的五個方面正是這漫長旅程中的許多進(jìn)步的節(jié)點(diǎn)!

