2020 AI 研究大盤點!這些大牛的論文你都看過嗎?

極市導(dǎo)讀
AI發(fā)展日新月異,但又具有時代性!本文介紹了一些2020年那些有趣且重要的AI研究工作,涵蓋了nlp, cv等多個AI領(lǐng)域。快來看看哪些番你還沒補!>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿
人工智能領(lǐng)域的發(fā)展逐漸迅猛,在各個分支領(lǐng)域上不止兩開花!
但每年研究關(guān)注的內(nèi)容都有所變化,有學(xué)者整理了2020年中最重要的、最有意思的人工智能相關(guān)論文,其中人工智能倫理 、模型偏見等都受到了比以往更多的重視。
目前這項分享在Reddit上已經(jīng)獲得了近100贊,網(wǎng)友紛紛留言「無價之寶」,「感謝樓主」。


快看看下面哪些論文你還沒有讀過,趕緊來補番,下面選取10項工作在文中作簡單介紹,每份工作都有保姆級教程,包教包會!

1、YOLOv4
該算法的主要目標(biāo)是制作一個有更高精度、更快速度的目標(biāo)檢測器(object detector)。

通常一個目標(biāo)檢測器的模型架構(gòu)由幾個組件組成:首先是輸入(圖像),然后是骨干,以此圖像作為輸入,使用深層神經(jīng)網(wǎng)絡(luò)提取特征映射。
最后使用像 YOLO 或 SSD 這樣的對象檢測器來做出并處理這些預(yù)測。

YOLOv4 引入了一種新的數(shù)據(jù)增強方法,稱為馬賽克和自我對抗訓(xùn)練。

與以前的版本和其他對象檢測器相比,在多種 GPU 體系結(jié)構(gòu)上進行了測試,比如 Maxwell,Pascal 和 Volta,YOLOv4在速度和性能方面都有了顯著的提升。
對于諸如自動駕駛汽車、撲克牌作弊檢測等多個需要進行實時目標(biāo)檢測的領(lǐng)域來說,YOLOv4是一個巨大的改進。
2、DeepFaceDrawing:根據(jù)粗糙的人臉圖像,甚至不完整的草圖來生成高品質(zhì)的人臉圖像。

這個模型的關(guān)鍵思想是隱式模擬合理的人臉圖像的形狀空間,并在這個空間合成一個人臉圖像,以逼近輸入的草圖,所以系統(tǒng)能夠允許用戶在很少或根本沒有從粗糙或甚至不完整的徒手草圖生產(chǎn)高質(zhì)量的人臉圖像的模式中訓(xùn)練。
該方法輸入筆畫時忠實地復(fù)述用戶的意圖,這更像是一種軟約束來指導(dǎo)圖像合成,因此即使是從這些粗糙的草圖也能夠產(chǎn)生高質(zhì)量的人臉圖像。

3、PULSE算法:把一張超低分辨率的16x16圖像變成一張1080p高清晰度的人臉。
還在為拍的照片糊了而感到后悔嗎?PULSE的目標(biāo)是在一組合理的解決方案中生成逼真的圖像。
這意味著他們想要依賴于一個真實的圖像是現(xiàn)實的,其縮小版本將看起來與原來的低分辨率圖像相同。而不是必須直接從低分辨率圖像猜測。
因此,他們引入了一種新的自監(jiān)督技術(shù),遍歷高分辨率的自然圖像流形,尋找圖像向下縮放到原始的低分辨率圖像。

4、Unsupervised Translation of Programming Languages
由Facebook AI提出的一種編程語言之間的無監(jiān)督轉(zhuǎn)換方法,這種新的模式可以把代碼從一種編程語言以無監(jiān)督的形式轉(zhuǎn)換到另一門語言上,例如它可以將 Python 函數(shù)轉(zhuǎn)換為 C++ 函數(shù),反之亦然。

訓(xùn)練數(shù)據(jù)來自開源的GitHub項目,并且主要訓(xùn)練C++, Java, Python之間的函數(shù)變換。
基本架構(gòu)是一個seq2seq的模型,該模型由一個編碼器和一個具有Transformer結(jié)構(gòu)的解碼器組成。以無監(jiān)督的方式專門針對函數(shù)進行訓(xùn)練。
在訓(xùn)練結(jié)束后,相似的詞在表示空間中有更近的距離。

5、GPT-3: Language Models are few-shot learners
GPT-3是OpenAI開發(fā)的一個新的文本生成程序。該模型經(jīng)過預(yù)訓(xùn)練后參數(shù)即固定。
他們在1750億個參數(shù)的5萬億個單詞的數(shù)據(jù)集上訓(xùn)練GPT-3,這個參數(shù)量是以前非稀疏語言模型的10倍,所以這個模型就不再需要微調(diào)了,只有few-shot示例通過與模型的文本交互來指定。
例如,在翻譯任務(wù)中,只給定一個英語句子及其法語翻譯。
few-shot的工作原理是給出一定數(shù)量的上下文和完成示例(completion),然后給定一個待定的上下文示例,預(yù)期模型將在不更改模型參數(shù)的情況下提供補全。
該模型甚至可以通過直接針對特定任務(wù)進行微調(diào)達到現(xiàn)有sota模型的效果。
總之,GPT-3的效果很好,因為它的記憶中幾乎包含了人類在互聯(lián)網(wǎng)上發(fā)布的所有文本。
6、Image GPT — Generative Pretraining from Pixels
在之前Gmail展示的新功能中,一個最有趣的能力就是可以根據(jù)已經(jīng)寫的郵件內(nèi)容來推測剩下的連貫文本。
OpenAI提出的Image GPT就是根據(jù)不完全的圖像,來預(yù)測剩余的像素,而不考慮二維圖像結(jié)構(gòu)的知識。
他們想知道一個主要用于自然語言處理的架構(gòu)是否可以與圖片一起「重建」圖像。就像Gmail預(yù)測你信息的結(jié)尾一樣。

他們使用了的模型是Transformers雙向編碼器表示(BERT),Google開發(fā)的自然語言處理預(yù)訓(xùn)練模型。
應(yīng)用GPT-2序列架構(gòu)預(yù)測像素而不是語言標(biāo)記。
這兩個模型,BERT和GPT-2是領(lǐng)域不可知的,這意味著它們可以直接應(yīng)用于任何形式的一維序列,例如像素序列,而不是單詞和字母。
他們發(fā)現(xiàn)該模型甚至可以理解二維圖像的特征,比如物體的外觀和類別!

7、Lifespan Age Transformation Synthesis
來自 Adobe 研究所的一組研究人員開發(fā)了一種新的技術(shù),用于年齡轉(zhuǎn)換合成,這種技術(shù)僅僅基于人的一張照片。它可以從你發(fā)送的任何圖片生成不同年齡段的照片。

他們同樣使用GAN模型,但做了一些修改,他們稱他們的新方法為「多域圖像到圖像生成對抗網(wǎng)絡(luò)」。
它基本上是學(xué)習(xí)代表連續(xù)雙向老化過程的潛在空間模型。這意味著它學(xué)習(xí)如何表現(xiàn)一個特定的人的圖片,無論是年長的還是年輕的。
主要目標(biāo)是了解頭部形狀隨時間的變形,而目前的方法往往都忽略了這一點。當(dāng)然,這不是唯一的挑戰(zhàn),他們還需要了解不同年齡段的外貌變化,這不是一項容易的任務(wù)。
由于沒有數(shù)據(jù)集可以為我們提供同一個人在不同年齡的多張照片,所以無法使用監(jiān)督學(xué)習(xí)來完成這項任務(wù)。
否則的話他們可以獲得所有這些照片,并對照片上的人的性別和年齡進行注釋,從而使任務(wù)實現(xiàn)更簡單。

8、DeOldify:對舊的黑白照片進行上色,目前SOTA的黑白圖像著色方式,并且也是開源的。

主要模型同樣是GAN來完成。

生成器的訓(xùn)練是通過像常規(guī)深度網(wǎng)絡(luò)的架構(gòu)(如ResNet),由于已經(jīng)預(yù)訓(xùn)練過了,所以在訓(xùn)練完整的GAN架構(gòu)之前,該模型已經(jīng)非常擅長對圖像進行著色。
然后,只需對這種景點的生成器判別器進行少量訓(xùn)練,即可優(yōu)化生成圖片的“真實感”。
高斯噪聲還隨機應(yīng)用于圖像中,以在訓(xùn)練期間生成假噪聲。
9、Stylized Neural Painting:風(fēng)格化神經(jīng)繪畫

圖像到圖像的翻譯是一個非常有趣的任務(wù),最近主要涉及到GANs和風(fēng)格轉(zhuǎn)換。當(dāng)前最先進的方法,如pix2pix網(wǎng)絡(luò)或CycleGANs,都使用GANs。
它們在這樣的應(yīng)用中表現(xiàn)效果非常好,因為這里的目標(biāo)是將一幅圖片轉(zhuǎn)換為另一幅圖片,同時保留其屬性,并且只更改圖像的整體樣式。

研究人員在一個空畫布上開始上圖中的過程(a)。然后使用兩個生成器網(wǎng)絡(luò)繪制真實的筆劃向量,也稱之為「雙路徑神經(jīng)渲染器」。重復(fù)這個過程直到我們得到最終結(jié)果。
過程(b)展示了這些筆劃是如何生成的,以及網(wǎng)絡(luò)如何知道它們看起來是否真實(b)。
10、Neural Re-Rendering of Humans from a Single Image
這篇文章是關(guān)于Facebook Reality Labs的一篇新論文,該論文將在2020年歐洲計算機視覺會議(ECCV)上發(fā)表。
該算法將身體姿勢和形狀表示為一個參數(shù)化網(wǎng)格(parametric mesh),該網(wǎng)格可以從單個圖像重建,并且很容易恢復(fù)。
給定一個人的圖像,他們能夠創(chuàng)建從另一個輸入圖像中獲得的不同姿勢或穿著不同服裝的人的合成圖像。

大多數(shù)方法使用基于顏色的UV紋理貼圖。其中,對于特征貼圖的每個紋理像素,指定源圖像中的對應(yīng)像素坐標(biāo)。
然后使用該對應(yīng)貼圖來估計公共曲面UV系統(tǒng)上輸入圖像和目標(biāo)圖像之間的顏色紋理。
而Facebook的新技術(shù)的主要區(qū)別在于,他們沒有使用這種基于顏色的UV紋理貼圖,而是使用學(xué)習(xí)過的高維UV紋理貼圖對外觀進行編碼。
這是一種獲取照片中姿勢、視點、個人身份和服裝樣式之間外觀變化的更多細節(jié)的方法。
除了上述十篇文章外,作者總共總結(jié)了28篇有趣的AI研究工作,完整的列表可以在https://github.com/louisfb01/Best_AI_paper_2020中找到。

參考資料:
https://github.com/louisfb01/Best_AI_paper_2020
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~

# CV技術(shù)社群邀請函 #

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

