【新智元導(dǎo)讀】2022年,谷歌在ML領(lǐng)域取得了哪些新進(jìn)展?Jeff Dean發(fā)萬字長文總結(jié)。
2022年,谷歌在機(jī)器學(xué)習(xí)方面有什么進(jìn)展?Google Research高級(jí)研究員兼高級(jí)副總裁Jeff Dean一文幫你總結(jié)!昨天,Jeff Dean代表Google Research社區(qū)發(fā)布一篇干貨滿滿的長文,總結(jié)了谷歌在2022年激動(dòng)人心的新進(jìn)展。顯然,大佬花了很久(也許是一年),醞釀了一個(gè)大的。在這次的第一篇中,Jeff Dean首先討論了語言、生成、視覺和多模態(tài)模型。接下來,他還將討論負(fù)責(zé)任的人工智能、算法和計(jì)算機(jī)系統(tǒng),以及科學(xué)、健康和機(jī)器人技術(shù)等研究主題的新進(jìn)展。話不多說,讓我們開始享受這場知識(shí)的盛宴!在過去十年中,機(jī)器學(xué)習(xí)最令人興奮的領(lǐng)域之一,無疑就是規(guī)模更大、功能更強(qiáng)的語言模型了。
一路走來,最矚目的進(jìn)展就是新的方法,比如序列到序列學(xué)習(xí)(seq2seq),以及谷歌開發(fā)的Transformer模型。這些方法,是過去幾年語言模型領(lǐng)域大部分進(jìn)展的基礎(chǔ)。雖然語言模型的訓(xùn)練目標(biāo)簡單得令人吃驚(比如根據(jù)前面的token,預(yù)測文本序列中的下一個(gè)token),但當(dāng)大模型在足夠大、足夠多樣化的文本語料庫上進(jìn)行訓(xùn)練時(shí),這些模型可以生成連貫的、有上下文的、聽起來自然的響應(yīng)。這些響應(yīng)可以用于廣泛的任務(wù),比如生成創(chuàng)意性的內(nèi)容、在不同語言之間進(jìn)行翻譯、幫助完成編碼任務(wù),以及以有用、信息豐富的方式回答問題。谷歌正在研究的LaMDA,就探索了這些模型如何產(chǎn)生安全、接地氣和高質(zhì)量的對(duì)話,以實(shí)現(xiàn)有上下文語境的多輪對(duì)話。
項(xiàng)目地址:https://blog.google/technology/ai/lamda/人該怎樣與計(jì)算機(jī)互動(dòng)?以前,我們會(huì)去適應(yīng)計(jì)算機(jī),用它能接受的方式與它互動(dòng)。但現(xiàn)在,有了LaMDA這樣的模型,人類與計(jì)算機(jī)的互動(dòng)就有了一種嶄新的方式——人類喜歡的自然對(duì)話模式。Jeff Dean表示,谷歌已經(jīng)取得了很大進(jìn)展,讓LaMDA變得有用,且符合事實(shí)(合理猜測,Dean這是拉踩了一波ChatGPT
)。
隨著模型規(guī)模的增加,跨任務(wù)的性能會(huì)提高,同時(shí)還會(huì)解鎖新功能2022年4月,谷歌提出了PaLM,這是一個(gè)擁有5400億參數(shù)的大型語言模型,使用Pathways軟件基礎(chǔ)設(shè)施構(gòu)建,并在多個(gè)TPU v4 Pod上進(jìn)行訓(xùn)練。PaLM的工作表明,對(duì)于在大量多語言數(shù)據(jù)和源代碼上訓(xùn)練的大規(guī)模語言模型,僅僅以預(yù)測下一個(gè)token為目標(biāo)進(jìn)行訓(xùn)練,就能在各種自然語言、翻譯和編碼任務(wù)中達(dá)到SOTA,盡管它們從未被訓(xùn)練為專門執(zhí)行這些任務(wù)。這項(xiàng)工作表明,增加模型和訓(xùn)練數(shù)據(jù)的規(guī)模,可以顯著提高模型能力。
PaLM 540B參數(shù)模型與之前的SOTA在Big-bench的58項(xiàng)任務(wù)上的性能比較谷歌在大型語言模型(LLM)上取得了巨大的成功,這些模型是在源代碼(而不是自然語言文本數(shù)據(jù))上進(jìn)行訓(xùn)練的。這些模型可以極大地幫助內(nèi)部開發(fā)人員,詳情可見「ML-Enhanced Code Completion Improves Developer Productivity」。谷歌用了一個(gè)5億參數(shù)的語言模型,為10,000名在IDE中使用該模型的開發(fā)者提供了代碼建議,所有代碼的2.6%,都是來自于這個(gè)模型的建議,因此,這些開發(fā)者減少了6%的編碼迭代時(shí)間。現(xiàn)在,谷歌正在研究這個(gè)模型的增強(qiáng)版本,希望推廣給更多開發(fā)者。AI中經(jīng)常遇到的挑戰(zhàn)之一,就是建立能夠進(jìn)行多步驟推理的系統(tǒng),將復(fù)雜的問題分解成較小的任務(wù),并結(jié)合這些任務(wù)的解決方案,解決更大的問題。谷歌最近在思維鏈提示方面的工作,就鼓勵(lì)模型在解決新問題時(shí)「展示工作」,這樣就能幫助語言模型遵循邏輯思維鏈,并產(chǎn)生更有條理、有組織和準(zhǔn)確的響應(yīng)。就像四年級(jí)的數(shù)學(xué)老師會(huì)鼓勵(lì)學(xué)生展示解決問題的步驟,而不是僅僅寫下答案一樣,這種方法不僅使解決問題的方法更具有可解釋性,而且對(duì)于需要多個(gè)推理步驟的復(fù)雜問題,也更有可能找到正確的答案。
這種多步驟推理最大的益處就是,可以提高模型解決復(fù)雜數(shù)學(xué)推理和科學(xué)問題的能力關(guān)鍵問題在于,ML模型是否能夠?qū)W會(huì)使用多步驟推理來解決復(fù)雜問題?對(duì)此,谷歌提出了Minerva模型,它以通用的PaLM語言模型為基礎(chǔ),在來自arXiv的大量數(shù)學(xué)文檔和論文的語料庫中對(duì)其進(jìn)行微調(diào),然后使用思維鏈提示和自洽解碼。在各自數(shù)學(xué)推理和科學(xué)問題的基準(zhǔn)套件上,Minerva都展示出了SOTA。
Minerva 540B顯著提高了STEM評(píng)估數(shù)據(jù)集的最新性能思維鏈提示(chain of thought prompting)是一種向模型更好地表達(dá)自然語言提示和示例的方法,能夠顯著提高模型處理新任務(wù)的能力。類似的提示微調(diào)(prompt tuning),即在問題領(lǐng)域特定文本的語料庫上對(duì)大型語言模型進(jìn)行微調(diào),也顯示出了巨大的前景。
論文地址:https://arxiv.org/abs/2212.13138在「Large Language Models Encode Clinical Knowledge」一文中,研究者證明了通過提示微調(diào),可以用較少的例子使通用語言模型適應(yīng)醫(yī)學(xué)領(lǐng)域,所產(chǎn)生的模型可以在美國醫(yī)學(xué)執(zhí)照考試問題(MedQA)上達(dá)到67.6%的準(zhǔn)確率,比之前的SOTA高出17%以上。雖然與臨床醫(yī)生的能力相比仍有差距,但理解力、知識(shí)回憶能力和醫(yī)學(xué)推理能力都隨著模型規(guī)模和指令提示微調(diào)(instruction prompt tuning)的調(diào)整而得到改善,這表明LLM在醫(yī)學(xué)領(lǐng)域具備極大的潛在應(yīng)用場景。另外,在多種語言上訓(xùn)練的大型語言模型,也可以幫忙把一種語言翻譯到另一種語言,即使它們從未被教導(dǎo)過要明確地翻譯文本。傳統(tǒng)的機(jī)器翻譯系統(tǒng),通常是依靠著并行(翻譯)文本,來學(xué)習(xí)從一種語言到另一種語言的翻譯。然而,由于平行文本只存在于相對(duì)較少的語言中,許多語言往往不被機(jī)器翻譯系統(tǒng)所支持。在「Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate」、「Building Machine Translation Systems for the Next Thousand Languages」、「Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning」這三篇文章中,谷歌研究員描述了一套技術(shù),這些技術(shù)在使用在單語種(非平行)數(shù)據(jù)集上訓(xùn)練出的大規(guī)模多語種語言模型,為谷歌翻譯增加了24種新語言,被3億人所使用。
每種語言的單語數(shù)據(jù)量與每種語言的并行(翻譯)數(shù)據(jù)量。少數(shù)語言有大量的平行數(shù)據(jù),但有很長的語言只有單語數(shù)據(jù)另一種方法是利用軟提示(learned soft prompt)進(jìn)行表征。在這種情況下,不是構(gòu)建新的輸入token來表征提示,而是在每個(gè)任務(wù)中添加少量可調(diào)整的參數(shù),這些參數(shù)可以從一些任務(wù)實(shí)例中學(xué)習(xí)。采用軟提示的任務(wù),通常都產(chǎn)生了高性能,同時(shí)還允許大型預(yù)訓(xùn)練語言模型在成千上萬的不同任務(wù)中共享。這是更普遍的任務(wù)適配器技術(shù)的一個(gè)具體示例,它允許很大一部分參數(shù)在不同的任務(wù)中共享,同時(shí)仍然允許特定任務(wù)上的適應(yīng)和調(diào)整。有趣的是,由于新功能的出現(xiàn),語言模型的規(guī)模會(huì)隨著規(guī)模的增加而顯著增長。在「Characterizing Emergent Phenomena in Large Language Models」中,研究者對(duì)一個(gè)奇怪的現(xiàn)象進(jìn)行了調(diào)查——這些模型在達(dá)到一定規(guī)模之前,無法非常有效地執(zhí)行特定的復(fù)雜任務(wù)。然而,一旦發(fā)生了關(guān)鍵的學(xué)習(xí)量(因任務(wù)而異),他們準(zhǔn)確執(zhí)行復(fù)雜任務(wù)的能力就會(huì)突然大幅提升。
進(jìn)行多步算術(shù)(左)、在大學(xué)水平考試中考高分(中)以及在上下文中識(shí)別單詞的預(yù)期含義(右)的能力,都只出現(xiàn)在足夠大的模型中,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM
這就提出了一個(gè)問題,即當(dāng)這些模型得到進(jìn)一步訓(xùn)練時(shí),哪些新任務(wù)會(huì)變得可行。2022年,圖像、視頻和音頻的生成模型的質(zhì)量和能力已經(jīng)顯示出真正令人驚嘆和非凡的進(jìn)步。生成模型的方法多種多樣,但共同點(diǎn)是必須學(xué)會(huì)對(duì)復(fù)雜的數(shù)據(jù)集(如自然圖像)進(jìn)行建模。2014年開發(fā)的生成式對(duì)抗網(wǎng)絡(luò)(GAN),設(shè)置了兩個(gè)相互作用模型:1. 生成器:用于生成一個(gè)看起來很真實(shí)的圖像。2. 鑒別器:同時(shí)接收生成的和真實(shí)的圖像,并判斷兩者中哪個(gè)是生成的,哪個(gè)是真實(shí)的。每個(gè)模型都試圖在與另一個(gè)模型的競爭中取得勝利,結(jié)果是兩個(gè)模型在各自任務(wù)上的表現(xiàn)都越來越好。最后,生成模型就可以單獨(dú)用于生成圖像了。2015年,「Deep Unsupervised Learning using Nonequilibrium Thermodynamics」一文提出了擴(kuò)散模型(Diffusion model)。
論文地址:https://arxiv.org/abs/1503.03585模型首先通過一個(gè)迭代的前向擴(kuò)散過程,系統(tǒng)地、緩慢地破壞數(shù)據(jù)分布中的結(jié)構(gòu)。然后,再通過學(xué)習(xí)一個(gè)反向擴(kuò)散過程,從而恢復(fù)數(shù)據(jù)中已經(jīng)丟失的結(jié)構(gòu),即使是在高水平的噪聲下。其中,前向過程可以用來為反向擴(kuò)散過程生成以各種有用的、可控制的模型輸入為條件的噪音起點(diǎn),這樣反向擴(kuò)散(生成)過程就變得可控了。也就是說,我們現(xiàn)在可以要求模型「生成一個(gè)柚子的圖像」,這顯然要比單純地「生成一個(gè)圖像」有用得多。之后,各種形式的自回歸模型也被應(yīng)用于圖像生成的任務(wù)。2016年,「Pixel Recurrent Neural Networks」提出了一種遞歸架構(gòu)PixelRNN,以及一種類似但更有效的卷積架構(gòu)PixelCNN。這兩個(gè)架構(gòu)幫助奠定了使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行像素級(jí)生成的基礎(chǔ)。
論文地址:https://arxiv.org/abs/1601.06759相關(guān)的研究還有「Conditional Image Generation with PixelCNN Decoders」這篇。論文地址:https://arxiv.org/abs/1606.05328緊隨其后的是,2017年在「Neural Discrete Representation Learning」中提出的VQ-VAE,一個(gè)矢量量化的自編碼器。通過將VQ-VAE與PixelCNN相結(jié)合,可以產(chǎn)生高質(zhì)量的圖像。
論文地址:https://arxiv.org/abs/1711.009372018年提出的Image Transformer,則使用自回歸Transformer模型來生成圖像。
論文地址:https://arxiv.org/abs/1802.05751然而,所有這些技術(shù)所生成的圖像與現(xiàn)實(shí)世界相比,質(zhì)量都相對(duì)較低。直到最近,一些新研究才為更好的圖像生成打開了大門。比如OpenAI的CLIP——一種聯(lián)合訓(xùn)練圖像編碼器和文本解碼器以預(yù)測「圖像、文本」對(duì)的預(yù)訓(xùn)練方法。這種預(yù)測哪個(gè)描述與哪個(gè)圖像相配的預(yù)訓(xùn)練任務(wù),被證明是學(xué)習(xí)圖像表征的有效和可擴(kuò)展的方式,并在ImageNet這樣的數(shù)據(jù)集上取得了出色的zero-shot性能。
論文地址:https://arxiv.org/abs/2103.00020
項(xiàng)目地址:https://openai.com/blog/clip/除了CLIP之外,生成式圖像模型的工具也在不斷增加。大型語言模型編碼器已經(jīng)被證明可以有效地將圖像生成的條件放在長的自然語言描述上,而不僅僅是數(shù)量有限的預(yù)先設(shè)定的圖像類別。大規(guī)模的圖像訓(xùn)練數(shù)據(jù)集和附帶的描述(可以反過來作為文本→圖像的示例)提高了整體性能。所有這些因素加在一起,產(chǎn)生了一系列能夠生成高分辨率圖像的模型,即便是非常詳細(xì)和奇妙的提示也可以。在此,Jeff Dean重點(diǎn)介紹了谷歌研究團(tuán)隊(duì)的兩項(xiàng)最新進(jìn)展:Imagen和Parti。左圖來自Imagen:「皇家城堡的一面墻。墻上有兩幅畫。左邊那幅是皇家浣熊國王充滿細(xì)節(jié)的油畫。右邊那幅是皇家浣熊王后充滿細(xì)節(jié)的油畫?!?/span>右圖來自Prti:「一只戴著摩托車頭盔和披風(fēng)的泰迪熊在紐約市的出租車上沖浪。數(shù)碼照片?!?/span>
首先,Imagen是基于之前提到的擴(kuò)散模型。在2022年發(fā)表的「Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding」中,研究人員表明,一個(gè)通用的大型語言模型(如T5),通過在純文本語料庫上進(jìn)行預(yù)訓(xùn)練,可以在圖像合成的文本編碼方面有著出色的表現(xiàn)。令人驚訝的是,在Imagen中增加語言模型的大小,比增加圖像擴(kuò)散模型的大小更能提高樣本的保真度和圖像-文本的一致性。
論文地址:https://arxiv.org/abs/2205.11487
項(xiàng)目地址:https://imagen.research.google/具體而言,Imagen通過在訓(xùn)練期間偶爾「放棄」條件信息來提高性能,并為基于擴(kuò)散的圖像生成帶來了一些進(jìn)展,包括「Efficient U-Net」和「無分類器引導(dǎo)」的新型內(nèi)存效率架構(gòu)。其中,無分類器引導(dǎo)迫使模型學(xué)會(huì)僅從輸入數(shù)據(jù)中生成,從而避免因過度依賴調(diào)節(jié)信息而產(chǎn)生的問題。
論文地址:https://arxiv.org/abs/2207.12598對(duì)此,「Guidance: a cheat code for diffusion models」一文提供了更加直觀的解釋。文章地址:https://benanne.github.io/2022/05/26/guidance.html其次,Parti使用自回歸Transformer架構(gòu)來生成基于文本輸入的圖像像素。在2021年發(fā)布的「Vector-quantized Image Modeling with Improved VQGAN」表明,基于Vision Transformer的編碼器能夠顯著改善矢量量化GAN模型VQGAN的輸出。
論文地址:https://arxiv.org/abs/2110.04627這在2022年發(fā)布的「Scaling Autoregressive Models for Content-Rich Text-to-Image Generation」中得到了擴(kuò)展,通過將Transformer編碼器-解碼器的參數(shù)增加到200億個(gè),來獲得更好的結(jié)果。
論文地址:https://arxiv.org/abs/2206.10789此外,Parti還善于捕捉提示中的微妙線索,并且采用了上文所述的無分類引導(dǎo)對(duì)生成的圖像進(jìn)行銳化。用戶的控制
上述進(jìn)展使我們有可能根據(jù)文字描述生成逼真的靜態(tài)圖像。然而,有時(shí)僅靠文字并不足以使你創(chuàng)造出你想要的東西。舉個(gè)例子,「一只狗在沙灘上被獨(dú)角獸追趕」與「我的狗在沙灘上被獨(dú)角獸追趕」。因此,谷歌在為用戶提供控制生成過程的新方法上又做了后續(xù)的研究。在「DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation」中,用戶能夠?qū)magen或Parti這樣的模型進(jìn)行微調(diào),進(jìn)而根據(jù)文本和用戶提供的圖像的組合生成新的圖像。比如,用戶可以將自己(或?qū)櫸铮┑膱D像放入生成的圖像當(dāng)中。
論文地址:https://arxiv.org/abs/2208.12242
項(xiàng)目地址:https://dreambooth.github.io/這一點(diǎn)在「Prompt-to-Prompt Image Editing with Cross Attention Control」中也得到了體現(xiàn)。用戶可以通過文本提示讓模型去填充被mask的區(qū)域,從而反復(fù)編輯圖像,比如「將汽車變成自行車」這種。
論文地址:https://arxiv.org/abs/2208.01626
項(xiàng)目地址:https://imagen.research.google/editor/生成式視頻
為視頻創(chuàng)建生成模型是一個(gè)非常具有挑戰(zhàn)性的領(lǐng)域,因?yàn)榕c圖像不同的是,圖像的挑戰(zhàn)是將圖像的理想屬性與生成的像素相匹配,而視頻則有一個(gè)額外的時(shí)間維度。視頻中,每一幀的像素不僅必須與此刻應(yīng)該發(fā)生的事相匹配,還必須與其他幀相一致——既要在非常精細(xì)的層面上(前后幾幀的范圍內(nèi),使運(yùn)動(dòng)看起來平滑自然),也要在粗略的層面上(如果我們想做一個(gè)兩分鐘的飛機(jī)起飛、盤旋和降落的視頻,就必須制作成千上萬個(gè)符合這個(gè)需求的幀)。今年,谷歌通過Imagen Video和Phenaki這兩項(xiàng)工作,在這個(gè)目標(biāo)上取得了相當(dāng)多令人振奮的進(jìn)展。在「Imagen Video: High Definition Video Generation from Diffusion Models」中,研究人員使用級(jí)聯(lián)擴(kuò)散模型生成高分辨率的視頻。
論文地址:https://arxiv.org/abs/2210.02303首先,輸入文本提示(一只戴著生日帽的快樂大象在海底行走),并用T5將其編碼為文本嵌入。然后,一個(gè)基礎(chǔ)的視頻擴(kuò)散模型以40×24的分辨率和每秒3幀的速度生成一個(gè)非常粗略的16幀視頻。最后,由多個(gè)時(shí)間超分辨率(TSR)和空間超分辨率(SSR)模型進(jìn)行上采樣,生成最終的128幀,分辨率為1280×768,每秒24幀,共計(jì)5.3s的高清視頻。2022年發(fā)布的「Phenaki: Variable Length Video Generation From Open Domain Textual Description」,引入了一個(gè)新的基于Transformer的模型來學(xué)習(xí)視頻表征。
論文地址:https://arxiv.org/abs/2210.02399其中,文本調(diào)節(jié)是通過訓(xùn)練一個(gè)雙向的Transformer模型來實(shí)現(xiàn)的,可以根據(jù)文本描述生成視頻token。然后,再對(duì)這些生成的視頻token進(jìn)行解碼來創(chuàng)建最終的視頻。有了Imagen Video和Phenaki,我們還可以將兩個(gè)模型結(jié)合起來,從Imagen的高分辨率單幀和Phenaki的長視頻中獲益。最直接的方法是使用Imagen Video來處理短視頻片段的超分辨率,同時(shí)依靠自回歸的Phenaki模型來生成長時(shí)標(biāo)視頻信息。生成式音頻
除了面向視覺的生成模型外,谷歌在音頻的生成模型方面也取得了重大進(jìn)展。在「AudioLM, a Language Modeling Approach to Audio Generation」中,研究人員描述了如何利用語言建模的進(jìn)展來生成音頻,而不需要在注釋的數(shù)據(jù)上進(jìn)行訓(xùn)練。
論文地址:https://arxiv.org/abs/2209.03143計(jì)算機(jī)視覺領(lǐng)域的發(fā)展速度驚人。2020年,在名為「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」的文章中,谷歌研究團(tuán)隊(duì)開始使用Transformer架構(gòu)進(jìn)行計(jì)算機(jī)視覺的研究,而非卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
論文地址:https://arxiv.org/abs/2010.11929雖然卷積的圖像局部特征提取是許多計(jì)算機(jī)視覺問題的有力解法,但Transformer的注意力機(jī)制在圖像處理方面顯得靈活。圖像的處理
然而,由于完全注意力機(jī)制會(huì)隨著圖像大小進(jìn)行二次縮放,很難將其應(yīng)用于高分辨率的圖像處理中。為此,谷歌團(tuán)隊(duì)提出了一種新的multi-axis方法,改進(jìn)原有的ViT和MLP模型,更好地適應(yīng)高分辨率、密集的預(yù)測任務(wù)、同時(shí),模型可以自然地適應(yīng)不同的輸入大小,具有高靈活性和低復(fù)雜度。為實(shí)現(xiàn)高級(jí)和低級(jí)視覺的不同任務(wù),谷歌團(tuán)隊(duì)推出了兩個(gè)模型:MaxViT和MAXIM。在「MaxViT: Multi-Axis Vision Transformer」中,研究人員探索了一種在視覺模型的每個(gè)階段,結(jié)合定位和非定位信息的方法。
論文地址:https://arxiv.org/abs/2204.01697這種方法在ImageNet-1k分類任務(wù)和各種對(duì)象檢測任務(wù)上的表現(xiàn)優(yōu)于其他最先進(jìn)的模型,而且它的計(jì)算成本要低得多。
在MaxViT中,multi-axis注意力機(jī)制使其復(fù)雜度呈線性實(shí)驗(yàn)顯示,MaxViT顯著提高了圖像分類、目標(biāo)檢測、分割、質(zhì)量評(píng)估等高級(jí)任務(wù)的最新技術(shù)水平。在「MAXIM: Multi-Axis MLP for Image Processing」中,谷歌推出了圖像處理解決方案的第二個(gè)模型。
論文地址:https://arxiv.org/abs/2201.02973基于類似UNet的架構(gòu),MAXIM在低級(jí)成像任務(wù)(包括去噪、去模糊、去霧、去雨和弱光增強(qiáng))上具有強(qiáng)勁的性能。
為了促進(jìn)對(duì)高效Transformer和MLP模型的進(jìn)一步研究,谷歌團(tuán)隊(duì)開源了MaxViT和MAXIM的代碼和模型。MaxViT代碼鏈接:https://github.com/google-research/maxvitMAXIM代碼鏈接:https://github.com/google-research/maxim除了數(shù)據(jù)提取,對(duì)象監(jiān)測也是圖像處理的重要一環(huán)。在「Pix2Seq: A New Language Interface for Object Detection」中,研究人員探索了一種簡單而通用的方法,從完全不同的角度處理對(duì)象檢測。
論文地址:https://arxiv.org/abs/2109.10852與基于特定任務(wù)的現(xiàn)有方法不同,谷歌研究人員將對(duì)象檢測轉(zhuǎn)換為以觀察到的像素輸入為條件的語言建模任務(wù)。
Pix2Seq通過神經(jīng)網(wǎng)絡(luò)感知圖像,并為每個(gè)對(duì)象生成一系列token與現(xiàn)有的高度專業(yè)化和優(yōu)化的檢測算法相比,Pix2Seq在大規(guī)模對(duì)象檢測COCO數(shù)據(jù)集方面取得了更好地結(jié)果,通過在更大的對(duì)象檢測數(shù)據(jù)集上預(yù)訓(xùn)練模型,可以進(jìn)一步提高其性能。理解3D世界
計(jì)算機(jī)視覺的另一個(gè)挑戰(zhàn),在于如何讓模型通過一張或幾張二維圖像,更好地理解物體在現(xiàn)實(shí)世界的三維結(jié)構(gòu)。在「FILM: Frame Interpolation for Large Motion」一文中,研究人員演示了如何在相隔多秒的兩張照片之間,通過插值來創(chuàng)建慢動(dòng)作短視頻。
論文地址:https://arxiv.org/abs/2202.04901在「View Synthesis with Transformers」中,研究人員展示了如何結(jié)合兩種新的技術(shù)來合成場景的新視圖,也就是光場神經(jīng)渲染(Light Field Neural Rendering,LFNR)和可泛化的基于patch的神經(jīng)渲染(Generalizable Patch-Based Neural Rendering,GPNR)。LFNR項(xiàng)目地址:https://light-field-neural-rendering.github.io/GPNR項(xiàng)目地址:https://mohammedsuhail.net/gen_patch_neural_rendering/LFNR使用學(xué)習(xí)組合參考像素顏色的Transformer,來準(zhǔn)確重現(xiàn)與參考圖像相關(guān)的效果。雖然LFNR在單個(gè)場景中效果很好,但它的新場景泛化能力有限。GPNR通過使用一系列具有規(guī)范化位置編碼的Transformer,可以很好地克服這一點(diǎn)。這些Transformer可以在一組場景上進(jìn)行訓(xùn)練,以合成新場景的視圖。這些技術(shù)結(jié)合在一起,只需從場景的幾張圖像中就可以高質(zhì)量地合成新場景,如下所示:在「LOLNerf: Learn from One Look」中,研究人員探索了僅從單個(gè)二維圖像中學(xué)習(xí)高質(zhì)量表征的能力。
論文地址:https://arxiv.org/abs/2111.09996通過對(duì)特定類別對(duì)象的不同示例進(jìn)行培訓(xùn),LOLNerf只憑一張圖片,就能充分了解對(duì)象的預(yù)期三維結(jié)構(gòu)。通過這項(xiàng)技術(shù),機(jī)器模型能更好地了解三維世界——這是計(jì)算機(jī)視覺人的長期夢想!Dean介紹的這些機(jī)器學(xué)習(xí)領(lǐng)域變革性的進(jìn)展,在改變數(shù)十億谷歌產(chǎn)品的用戶,這些產(chǎn)品包括搜索、智能助理、廣告、云、Gmail、地圖、YouTube、Workspace、安卓、Pixel、Nest和翻譯。這些最新的進(jìn)展切實(shí)影響著谷歌用戶的體驗(yàn),改變著人類與計(jì)算機(jī)互動(dòng)的方式。語言模型讓人機(jī)可以進(jìn)行自然的對(duì)話,并且從計(jì)算機(jī)那里得到令人驚訝的回應(yīng)。由于計(jì)算機(jī)視覺的新方法,計(jì)算機(jī)可以幫助人們在三維(而不是二維)的環(huán)境中進(jìn)行創(chuàng)作和互動(dòng)。由于生成式模型的新進(jìn)展,計(jì)算機(jī)可以幫助人們創(chuàng)建圖像、視頻和音頻。而自然語言理解方面的進(jìn)展,讓計(jì)算機(jī)可以理解你所要?jiǎng)?chuàng)造的東西,然后產(chǎn)生令你驚訝的結(jié)果!改變?nèi)藱C(jī)互動(dòng)的另一個(gè)轉(zhuǎn)變,是多模圖模型能力的不斷增強(qiáng)。谷歌正在努力創(chuàng)造一個(gè)能夠流暢理解不同模式的單一模型,它可以理解每一種模式在上下文中代表什么,然后生成不同模式。比如,他們推出了一個(gè)統(tǒng)一的語言模型,他可以在100多種語言中執(zhí)行視覺、語言、問題回答和物體檢測任務(wù),并且達(dá)到了SOTA。在未來,人們可以調(diào)動(dòng)更多的感官,讓計(jì)算機(jī)做他們想做的事情,比如,「用斯瓦希里語描述這張圖片」。還有一些模型,可以通過不同的組合,生成由自然語言、圖像和音頻控制的圖像、視頻和音頻。在文章最后,Dean表示,谷歌對(duì)用戶和整個(gè)社會(huì)都負(fù)有責(zé)任,會(huì)竭盡全力保證這些AI技術(shù)的安全性。P.S 因?yàn)闀r(shí)間原因,多模態(tài)模型的部分本次未寫入全文,敬請(qǐng)期待后續(xù)。https://ai.googleblog.com/2023/01/google-research-2022-beyond-language.html