2020年人工智能領(lǐng)域突破性工作
DETR

DETR是首個將完整的Transformer架構(gòu)應(yīng)用于計算機(jī)視覺領(lǐng)域的工作,開辟了計算機(jī)視覺大規(guī)模使用Transformer的新紀(jì)元。另外,DETR將目標(biāo)檢測問題當(dāng)成集合預(yù)測問題,可以一次并行預(yù)測出所有目標(biāo)框,引領(lǐng)了NMS-Free新方向。
ViT

ViT更為巧妙的將輸入圖片看成是16x16的patches序列,直接使用Transformer Encoder來做patches序列的特征抽取,使得ViT可以作為一個標(biāo)準(zhǔn)的特征提取器,方便的應(yīng)用于計算機(jī)視覺下游任務(wù)(最近基于ViT的魔改少說幾百篇???)
BYOL

自從MoCo橫空出世以來,Self-Supervised領(lǐng)域再度火熱,但是BYOL之前的方法仍然遵循著正樣本對拉近,負(fù)樣本對排斥的原則。然而BYOL天馬行空的將負(fù)樣本排斥原則舍棄,只遵循正樣本對拉近原則,并且取得了非常好的效果。這是什么概念,這就是Self-Supervised的周伯通啊,左手和右手互博,不需要和別人實戰(zhàn)就能練成絕世神功。
NeRF

NeRF,只需要輸入少量靜態(tài)圖片,就能做到多視角的逼真3D效果。
看一下demo效果!


GPT-3

Money is all you need!OpenAI的GPT-3將訓(xùn)練的參數(shù)量堆到了1750億,數(shù)據(jù)集總量是之前發(fā)布的GPT-2的116倍,是迄今為止最大的訓(xùn)練模型(2021年1月被Switch Transformer刷新)。
AlphaFold2
蛋白質(zhì)結(jié)構(gòu)預(yù)測問題是結(jié)構(gòu)生物學(xué)一個里程碑式的問題,每兩年,人類會組織一場蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽。CASP14屆Alphafold2血虐其他算法。

這個圖什么概念?
CASP用來衡量預(yù)測準(zhǔn)確性的主要指標(biāo)是 GDT,范圍為0-100。GDT可以近似地認(rèn)為是和實驗結(jié)構(gòu)相比,成功預(yù)測在正確位置上的比例。70分就是達(dá)到了同源建模的精度,非正式的說,大約90 分可以和實驗結(jié)果相競爭!
這次AlphaFold2直接把總分干到了92.4,和實驗的誤差在1.6,即使是在最難的沒有同源模板的蛋白質(zhì)上面,這個分?jǐn)?shù)也達(dá)到了了恐怖的87.0 。
最后
前4個工作對于后面Transformer、Self-Supervised和3D視覺領(lǐng)域有著深遠(yuǎn)的影響,會一定程度上指引NLP和CV領(lǐng)域的發(fā)展。后兩個工作可能屬于行業(yè)顛覆型的工作,經(jīng)久不衰。
Reference
[1] End-to-End Object Detection with Transformers
[2] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
[3] Bootstrap Your Own Latent A New Approach to Self-Supervised Learning
[4] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[5] Language Models are Few-Shot Learners
[6] AlphaFold: a solution to a 50-year-old grand challenge in biology | DeepMind
往期精彩回顧
本站qq群851320808,加入微信群請掃碼:
