吳恩達(dá)的2021回顧,這些大事件影響了AI這一年

譯者:核子可樂,劉燕
隨著 2021 年底的臨近,你可能正在減少工作為寒假做準(zhǔn)備。我很期待能暫時(shí)放下工作休息一下,希望你也一樣。
十二月有時(shí)被稱為給予的季節(jié)。如果你有空閑時(shí)間,想知道如何利用它,我認(rèn)為我們每個(gè)人能做的最好的事情之一,就是思考如何能夠幫助別人。
歷史學(xué)家、哲學(xué)家威爾·杜蘭特曾說過:“重復(fù)的行為造就了我們?!比绻悴粩嗟貙で筇嵘?,這不僅會幫助他們,或許同樣重要的是,它也會讓你成為一個(gè)更好的人。正是你的重復(fù)行為定義了你的為人。還有一個(gè)經(jīng)典的研究表明,把錢花在別人身上可能比花在自己身上更讓你快樂。
所以,在這個(gè)假期,我希望你能休息一段時(shí)間。休息、放松、充電!與那些你愛的、但在過去的一年里沒有足夠的時(shí)間聯(lián)系的人聯(lián)系。如果時(shí)間允許,做一些有意義的事情來幫助別人??梢允窃诓┛臀恼轮辛粝鹿膭畹脑u論、與朋友分享建議或鼓勵、在線上論壇上回答一個(gè)人工智能問題、或?yàn)橐粋€(gè)有價(jià)值的事業(yè)捐款。在與教育和(或)科技相關(guān)的慈善機(jī)構(gòu)中,我最喜歡的有維基媒體基金會、可汗學(xué)院、電子前沿基金會和 Mozilla 基金會。
吳恩達(dá)回顧了 2021 年全球人工智能的進(jìn)展并展望了 2022 年以及之后 AI 技術(shù)的發(fā)展前景。
雖然 GPT-3 和 EfficientNet 等單獨(dú)針對文本及圖像等任務(wù)的深度學(xué)習(xí)模型備受矚目,但這一年中最令人印象深刻的還是,AI 模型在發(fā)現(xiàn)許可證與圖像間關(guān)系中取得了進(jìn)步。
背景信息
開源社區(qū)將 CLIP 與生成對抗網(wǎng)絡(luò)(GAN)相結(jié)合,開發(fā)出引人注目的數(shù)字藝術(shù)作品。藝術(shù)家 Martin O’Leary 使用 Samuel Coleridge 的史詩作品《忽必烈大汗》為輸入,生成了充滿迷幻色彩的“Sinuous Rills”。 Facebook 表示其多模式仇恨言論檢測器能夠標(biāo)記并刪除掉社交網(wǎng)絡(luò)上 97% 的辱罵及有害內(nèi)容。該系統(tǒng)能夠根據(jù)文本、圖像及視頻等 10 種數(shù)據(jù)類型將模因與其他圖像 - 文本對準(zhǔn)確劃分為“良性”或“有害”。 谷歌表示已經(jīng)在搜索引擎中添加了多模式(及多語言)功能。其多任務(wù)統(tǒng)一模型能夠返回文本、音頻、圖像及視頻鏈接,用以響應(yīng)由 75 種語言提交的各類查詢。
過去一年,模型經(jīng)歷了從大到更大的發(fā)展歷程。
谷歌用 Switch Transformer 拉開了 2021 年的序幕,這是人類歷史上首個(gè)擁有萬億級參數(shù)的模型,總量達(dá) 1.6 萬億。
北京人工智能研究院則回敬以包含 1.75 萬億參數(shù)的悟道 2.0。
數(shù)據(jù):大型模型需要吸納大量數(shù)據(jù),但網(wǎng)絡(luò)和數(shù)字圖書館等傳統(tǒng)數(shù)據(jù)源往往提供不了這么多高質(zhì)量素材。例如,研究人員常用的 BookCorpus 是一套包含 11000 本電子書的數(shù)據(jù)集,之前已被用于訓(xùn)練 30 多種大型語言模型;但其中包含某些宗教偏見,因?yàn)閮?nèi)容主要討論基督教和伊斯蘭教義,對其他宗教幾無涉及。
速度:如今的硬件仍難以處理大體量模型,當(dāng)數(shù)據(jù)反復(fù)出入內(nèi)存時(shí),模型的訓(xùn)練和推理速度都會受到嚴(yán)重影響。
能耗:訓(xùn)練如此龐大的網(wǎng)絡(luò)會消耗大量電能。2019 年的一項(xiàng)研究發(fā)現(xiàn),在 8 個(gè)英偉達(dá) P100 GPU 上訓(xùn)練一個(gè)包含 2 億參數(shù)的 transformer 模型所造成的碳排放(以化石燃料發(fā)電計(jì)算),相當(dāng)于一輛普通汽車五年的行駛總排放量。
模型交付:這些龐大的模型很難在消費(fèi)級或邊緣設(shè)備上運(yùn)行,所以真正的規(guī)模部署只能通過互聯(lián)網(wǎng)訪問或精簡版本實(shí)現(xiàn)——不過二者目前各有問題。
生成模型能夠從現(xiàn)有錄音中學(xué)習(xí)特征,進(jìn)而創(chuàng)造出令人信服的復(fù)制品。也有些制作人直接使用這項(xiàng)技術(shù)原創(chuàng)聲音或模仿現(xiàn)有聲音。
美國初創(chuàng)公司 Modulate 使用生成對抗網(wǎng)絡(luò)為用戶實(shí)時(shí)合成新的語音,使得游戲玩家和語聊用戶能夠建立起自己的虛擬角色;也有跨性別者用它調(diào)整自己的聲音,借此獲得與性別身份相一致的音色。
Sonantic 是一家專門從事聲音合成的初創(chuàng)公司。演員 Val Kilmer 于 2015 年因咽喉手術(shù)而喪失了大部分發(fā)聲能力,該公司則利用原有素材為他專門創(chuàng)造了一種音色。
電影制作人 Morgan Neville 聘用一家軟件公司,在自己的紀(jì)錄片《流浪者: 一部關(guān)于安東尼·波登的電影》中重現(xiàn)了已故旅游節(jié)目主持人波登的聲音。但此舉引起了波登遺孀的憤怒,她表示自己并未許可這種行為。
最近出現(xiàn)的音頻生成主流化傾向,完全是早期研究成果的自然延續(xù)。
OpenAI 的 Jukebox 就使用 120 萬首歌曲進(jìn)行訓(xùn)練,可利用自動編碼器、轉(zhuǎn)換器及解碼器管道進(jìn)行全實(shí)時(shí)錄音生成,風(fēng)格涵蓋從貓王到艾米納姆等多位歌手。
2019 年,某匿名 AI 開發(fā)者設(shè)計(jì)出一種技術(shù),允許用戶在短短 15 秒內(nèi)利用文本行重現(xiàn)動畫及視頻游戲角色的聲音。
生成音頻及生成視頻不僅讓媒體制作人多了一種修復(fù)并增強(qiáng)歸檔素材的能力,同時(shí)也讓他們能夠從零開始創(chuàng)造新的、真假難辨的素材。
但由此引發(fā)的道德與法律問題也在增加。如果配音演員被 AI 徹底取代,他們的損失該由誰承擔(dān)?將已故者的聲音在商業(yè)化作品中重現(xiàn)涉及哪些所有權(quán)糾紛?能不能利用 AI 為已故歌手推出新專輯?這么做對嗎?
TransGAN 是一套生成對抗網(wǎng)絡(luò),結(jié)合 transformers 以確保所生成的各個(gè)像素都與之前已生成的像素一致。這項(xiàng)成果能夠有效衡量所生成圖像與原始訓(xùn)練數(shù)據(jù)之間的相似度。 Facebook 的 TImeSformer 使用該架構(gòu)識別視頻片段中的動作元素。它的任務(wù)不再是從文本中識別單詞序列,而是嘗試解釋視頻幀中的序列關(guān)系。其性能優(yōu)于卷積神經(jīng)網(wǎng)絡(luò),能夠在更短時(shí)間內(nèi)分析更長的視頻片段,因此能耗也控制在更低水平。 Facebook、谷歌及加州大學(xué)伯克利分校的研究人員在文本上訓(xùn)練出 GPT-2,之后凍結(jié)了其 self-attention 與 feed-forward 層。在此基礎(chǔ)上,他們可以針對不同用例進(jìn)行模型微調(diào),包括數(shù)學(xué)、邏輯問題及計(jì)算機(jī)視覺等。 DeepMind 發(fā)布了 AlphaFold 2 的開源版本,其使用 transformers 根據(jù)氨基酸序列預(yù)測蛋白質(zhì)的 3D 結(jié)構(gòu)。該模型在醫(yī)學(xué)界內(nèi)掀起軒然大波,人們普遍認(rèn)為其具備推動藥物發(fā)現(xiàn)和揭示生物學(xué)原理的巨大潛力。
在深度學(xué)習(xí)的發(fā)展過程中,有幾個(gè)概念曾經(jīng)迅速普及:ReLU 激活函數(shù)、Adam 優(yōu)化器、attention 注意力機(jī)制,再加上現(xiàn)在的 transformer。
各國政府紛紛制定新的法律和提案,希望控制 AI 自動化對現(xiàn)代社會的影響。
隨著 AI 對隱私、公平性、安全性及國際競爭關(guān)系帶來的潛在影響,各國政府也開始加大對 AI 的監(jiān)管力度。
AI 相關(guān)法律往往反映出各國在政治秩序中的價(jià)值判斷,包括如何在社會公平與個(gè)人自由之間求取平衡。
歐盟起草了基于風(fēng)險(xiǎn)類別的機(jī)器學(xué)習(xí)應(yīng)用禁止或限制條例。實(shí)時(shí)人臉識別與社會信用系統(tǒng)被明令禁止;對于重要基礎(chǔ)設(shè)施的控制、執(zhí)法協(xié)助及生物識別技術(shù)等應(yīng)用方向則需要提交詳細(xì)的說明文件,證明 AI 方案安全可靠并持續(xù)接受人工監(jiān)督。
這項(xiàng)規(guī)則草案于今年 4 月發(fā)布,目前仍在立法流程之內(nèi),預(yù)計(jì)未來 12 個(gè)月內(nèi)仍無法落地。
從明年開始,中國互聯(lián)網(wǎng)監(jiān)管機(jī)構(gòu)將強(qiáng)制對可能破壞社會公序良俗的 AI 系統(tǒng)與推薦算法執(zhí)行監(jiān)督。打擊的目標(biāo)包括傳播虛假信息、引導(dǎo)成癮行為及危害國家安全的各類系統(tǒng)。企業(yè)在部署任何可能左右公眾情緒的算法之前必須獲得批準(zhǔn),違規(guī)算法一律不得上線。
美國政府提出一項(xiàng) AI 權(quán)利法案,用以保護(hù)公民免受可能侵犯隱私及公民權(quán)利的系統(tǒng)的影響。政府將在明年 1 月 15 日前持續(xù)為提案收集公眾意見。在聯(lián)邦以下,多個(gè)州及市一級政府開始限制人臉識別系統(tǒng)。紐約市通過一項(xiàng)法律,要求對招聘算法進(jìn)行偏見審計(jì)。
聯(lián)合國民權(quán)高級專員呼吁各成員國暫停 AI 的某些用途,包括可能侵犯人權(quán)、限制民眾獲取基本服務(wù)、以及濫用私人數(shù)據(jù)的情形。
AI 社區(qū)正在逐步走向監(jiān)管層面的共識。
最近對 534 位機(jī)器學(xué)習(xí)研究人員進(jìn)行的一項(xiàng)調(diào)查發(fā)現(xiàn),68% 的受訪者認(rèn)為模型部署確實(shí)應(yīng)該重視可信度與可靠性。受訪者們對于歐盟及聯(lián)合國等國際機(jī)構(gòu)的信任度,也普遍高于對各國政府的信任度。
在中國以外,大部分 AI 相關(guān)法規(guī)仍處于審查階段。但從目前的提案來看,AI 從業(yè)者必須為政府全面介入的必然前景做好準(zhǔn)備。
原文鏈接:
https://read.deeplearning.ai/the-batch/issue-123/
往期精彩回顧 本站qq群955171419,加入微信群請掃碼:
