国产操逼网址,豆花视频免费观看18,成人福利午夜A片公司,91福利网在线观看,国产乱淫AV片免费,变态别类一区二区,青青操逼视频,91蜜桃传媒在线观看

點(diǎn)擊上方“AI算法與圖像處理”，選擇加"星標(biāo)"或“置頂”
重磅干貨，第一時(shí)間送達(dá)

作者丨琰琰

轉(zhuǎn)自丨AI科技評(píng)論

近日，知名外媒《Towards Data Science》統(tǒng)計(jì)了近五年來發(fā)表在各大國(guó)際頂級(jí)會(huì)上引用量排名前十的論文。近五年來，AI學(xué)術(shù)論文的投稿量和接收量都在不斷攀升，包括NeurIPS、AAAI、ACL，ICML、EMNLP等國(guó)際頂會(huì)。根據(jù)權(quán)威數(shù)據(jù)統(tǒng)計(jì)，NeurIPS論文收錄量在2019年呈指數(shù)級(jí)增長(zhǎng)，領(lǐng)先AAAI近300篇；而AAAI 在2020年創(chuàng)下歷史新高，達(dá)到了1692篇。

如何在海量論文庫(kù)中發(fā)現(xiàn)最具影響力的論文，谷歌引用次數(shù)是學(xué)者們參考的一項(xiàng)重要指標(biāo)，它在一定程度上反映了論文的質(zhì)量。

近日，知名外媒《Towards Data Science》按這一指標(biāo)，統(tǒng)計(jì)了近五年來發(fā)表在各大國(guó)際頂級(jí)會(huì)上引用量排名前十的論文。

根據(jù)統(tǒng)計(jì)結(jié)果顯示，Top 10 論文引用量最高為67514次，最低6995次，全部出自ICLR、NeurIPSR、NeurIPS、ICML以及《Nature》四家期刊，覆蓋深度學(xué)習(xí)、機(jī)器學(xué)、強(qiáng)化學(xué)習(xí)、視覺處理、自然語言處理等多個(gè)領(lǐng)域。其中，智能體AlphaGo、Transfromer模型、強(qiáng)化學(xué)習(xí)算法DQN，以及神經(jīng)網(wǎng)絡(luò)優(yōu)化算法Adam全部在列。

大部分論文所屬研究機(jī)構(gòu)為Google Brain 、Facebook AI Research、DeepMind以及Amsterdam University，作者包括我們熟知的AI大佬Ian J. Goodfellow，Kaiming He Thomas Kipf 、Ashish Vaswani 等。

下面AI科技評(píng)論按引用次數(shù)從低到高的順序?qū)op 10 論文進(jìn)行簡(jiǎn)要整理：

Top10：Explaining and Harnessing Adversarial Examples

作者：Ian J. Goodfellow, J Shlens, C Szegedy ，收錄于 ICLR 2015，引用 6995次.

論文地址：https://arxiv.org/abs/1412.6572

該論文介紹了快速生成神經(jīng)網(wǎng)絡(luò)對(duì)抗性示例的方法，并引入了對(duì)抗性訓(xùn)練作為正則化技術(shù)。

一些機(jī)器學(xué)習(xí)模型，包括最先進(jìn)的神經(jīng)網(wǎng)絡(luò)都容易受到對(duì)抗攻擊。如對(duì)數(shù)據(jù)集中的示例故意施加微小擾動(dòng)，模型會(huì)對(duì)輸入示例進(jìn)行錯(cuò)誤分類，從而使得擾動(dòng)的輸入結(jié)果以高置信度輸出不正確的答案。

對(duì)于這一現(xiàn)象，早期的處理方法集中在非線性和過度擬合上。在本篇論文中，研究人員提出神經(jīng)網(wǎng)絡(luò)模型易受干擾的主要因其線性性質(zhì)。通過定量實(shí)驗(yàn)，他們發(fā)現(xiàn)對(duì)抗樣本在模型結(jié)構(gòu)和訓(xùn)練集之間的泛化，并由此提出了一種簡(jiǎn)單而高效的生成對(duì)抗性例子的方法，即快速梯度符號(hào)法（Fast Gradient Sign Method)。

該方法的主要思想是讓擾動(dòng)的變化量與梯度的變化方向完全一致，通過增大誤差函數(shù)，以對(duì)分類結(jié)果產(chǎn)生最大變化。他們認(rèn)為，在構(gòu)造對(duì)抗樣本時(shí)更應(yīng)該關(guān)心擾動(dòng)的反向而不是擾動(dòng)的數(shù)目。經(jīng)實(shí)驗(yàn)，該方法可以有效減少M(fèi)NIST數(shù)據(jù)集上maxout網(wǎng)絡(luò)的測(cè)試集誤差。

圖注：在ImageNet上用GoogLeNet快速對(duì)抗生成的示例

影響力：本篇論文揭示了一個(gè)普遍的現(xiàn)象，即攻擊者對(duì)輸入進(jìn)行微小的修改就可以顯著降低任何精確機(jī)器學(xué)習(xí)模型的性能。這一現(xiàn)象已經(jīng)在其他任務(wù)和模式（如文本和視頻）中觀察到，并影響了了大量研究工作。

Top9：Semi-Supervised Classification with Graph Convolutional Networks

作者：Thomas Kipf 、Max Welling, 收錄于ICLR 2017, 引用7021次

論文地址：https://arxiv.org/abs/1609.02907

這篇論文證明了圖卷積網(wǎng)絡(luò)（GCN）在半監(jiān)督節(jié)點(diǎn)分類任務(wù)中性能優(yōu)越。

論文中，研究人員提出了一種可擴(kuò)展的圖結(jié)構(gòu)數(shù)據(jù)半監(jiān)督學(xué)習(xí)方法，該方法基于一種高效地、可直接操作于圖的卷積神經(jīng)網(wǎng)絡(luò)。通過譜圖卷積（spectral graph convolutions）的局部一階近似來激勵(lì)卷積結(jié)構(gòu)的選擇，可使模型在圖的邊數(shù)上線性伸縮，并且學(xué)習(xí)編碼局部圖結(jié)構(gòu)和節(jié)點(diǎn)特征的隱藏層表示。通過在引文網(wǎng)絡(luò)和知識(shí)圖數(shù)據(jù)集中的大量實(shí)驗(yàn)，已證實(shí)該方法比相關(guān)研究有更大的優(yōu)勢(shì)。

圖注：用圖卷積網(wǎng)絡(luò)變換圖特征實(shí)例

影響：新型藥物或高效能催化劑的發(fā)現(xiàn)需要將分子建模為圖形。圖卷積網(wǎng)絡(luò)把深度學(xué)習(xí)的工具帶到了圖領(lǐng)域，并展示了相比于此前占主導(dǎo)地位的手動(dòng)方法的優(yōu)越性。

Top8：Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

作者：Alec Radford 、Luke Metz et al. 收錄于 ICLR 2016, 引用 8681次。

論文地址：https://arxiv.org/abs/1511.06434

該論文提出了一種深度CNN結(jié)構(gòu)DCGAN，它在圖像生成上獲得了前所未有的效果。

近年來，卷積網(wǎng)絡(luò)（Convolutional Networks ，CNNs ）的監(jiān)督學(xué)習(xí)在計(jì)算機(jī)視覺應(yīng)用中得到了廣泛應(yīng)用。相對(duì)而言，使用CNNs的無監(jiān)督學(xué)習(xí)受到的關(guān)注較少。在本篇論文中，作者彌合了CNNs在有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方面的差距，提出了一種被稱為深層卷積生成式對(duì)抗網(wǎng)絡(luò)的CNN，即Deep Convolutional Generative Adversarial Networks ，簡(jiǎn)稱DCGAN。

DCGAN模型的基本組成部分是用上采樣卷積層替換生成器中的完全連接層。其完整體系結(jié)構(gòu)如下：

圖注：用于LSUN場(chǎng)景建模的DCGAN生成器

本質(zhì)上，DCGAN是在GAN的基礎(chǔ)上提出了一種訓(xùn)練架構(gòu)，并對(duì)其做了訓(xùn)練指導(dǎo)，比如幾乎完全用卷積層取代了全連接層，去掉池化層，采用批標(biāo)準(zhǔn)化(Batch Normalization, BN)等技術(shù)；將判別模型的發(fā)展成果引入到了生成模型中；強(qiáng)調(diào)了隱藏層分析和可視化計(jì)數(shù)對(duì)GAN訓(xùn)練的重要性和指導(dǎo)作用。

圖注：通過DCGAN生成的臥室圖示例

DCGAN的網(wǎng)絡(luò)結(jié)構(gòu)可以作為基礎(chǔ)架構(gòu)，用以評(píng)價(jià)不同目標(biāo)函數(shù)的GAN，讓不同的GAN得以進(jìn)行優(yōu)劣比較。DCGAN的出現(xiàn)極大增強(qiáng)了GAN的數(shù)據(jù)生成質(zhì)量。而如何提高生成數(shù)據(jù)的質(zhì)量（如生成圖片的質(zhì)量）一直是GAN研究的熱門話題。

影響：GANs是一種機(jī)器學(xué)習(xí)模型，它能夠生成人、動(dòng)物或物體的新圖像，GANs的性能決定了機(jī)器學(xué)習(xí)的創(chuàng)造力，以及它在諸多現(xiàn)實(shí)場(chǎng)景中的應(yīng)用能力。就目前來看，該方法仍然是所有目前GAN模型生成圖像的基礎(chǔ)。

Top 7：Mastering the game of Go with deep neural networks and tree search

作者：David Silver 、Aja Huang et al. 2016年被《Nature》收錄，引用9621次。

論文地址：https://www.nature.com/articles/nature16961

這篇論文代表了人工智能歷史上的一個(gè)重要節(jié)點(diǎn)，它所描述的分布式AlphaGo第一次在圍棋游戲中擊敗人類職業(yè)選手。AlphaGo是DeepMind公司針對(duì)圍棋游戲而開發(fā)的AI智能體，其在2016年1月首次推出便在行業(yè)內(nèi)引起不小震動(dòng)。而在此之后，DeepMind不斷優(yōu)化智能體，AlphaGo又陸續(xù)戰(zhàn)勝了世界頂級(jí)圍棋選手李世石和柯潔。

圍棋是人工智能最具挑戰(zhàn)性的游戲之一。在這篇論文中，作者提出了一種新的計(jì)算圍棋的方法，該方法使用“價(jià)值網(wǎng)絡(luò)”評(píng)估棋子的位置，使用“策略網(wǎng)絡(luò)”選擇落子點(diǎn)，通過將兩種網(wǎng)絡(luò)與蒙特卡羅搜索樹（MCTS）相結(jié)合所形成的搜索算法，能夠使AlphaGo達(dá)到99.8％的獲勝率。

具體來說，作者采用深度卷積神經(jīng)網(wǎng)絡(luò)，將19*19的棋盤看做是一個(gè)圖像，使用網(wǎng)絡(luò)構(gòu)建棋盤每個(gè)位置的表示。其中價(jià)值神經(jīng)網(wǎng)絡(luò)用于棋面局勢(shì)評(píng)估，策略神經(jīng)網(wǎng)絡(luò)用于采樣下一步動(dòng)作，這兩種網(wǎng)絡(luò)能夠有效減少搜索樹的寬度和深度。

接下來再使用管道來組織和訓(xùn)練神經(jīng)網(wǎng)絡(luò)，管道由多個(gè)階段的機(jī)器學(xué)習(xí)過程構(gòu)成。第一階段先構(gòu)建一個(gè)監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò), 訓(xùn)練數(shù)據(jù)來自人類專家棋手的比賽數(shù)據(jù)；

第二階段訓(xùn)練一個(gè)快速走子策略, 這個(gè)Rollout Policy可以在走子階段快速采樣獲取落子點(diǎn)。

圖注：AlphaGo采用蒙特卡洛樹搜索獲取最佳的落子點(diǎn)

第三階段訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)，通過自我對(duì)弈，在監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)最終學(xué)習(xí)結(jié)果基礎(chǔ)上調(diào)整優(yōu)化學(xué)習(xí)目標(biāo)。這里的學(xué)習(xí)目標(biāo)是贏棋，戰(zhàn)勝監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)，而原始的監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)預(yù)測(cè)的是跟專家走法一致的準(zhǔn)確率。最后階段訓(xùn)練一個(gè)價(jià)值網(wǎng)絡(luò)，用于預(yù)測(cè)某個(gè)棋面局勢(shì)下贏棋的概率。

以上這些離線訓(xùn)練的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)能夠有效的和蒙特卡羅搜索樹（MCTS）結(jié)合在一起，進(jìn)而在線上進(jìn)行比賽。下圖是分布式版AlphaGo和人類頂級(jí)職業(yè)棋手FanHui進(jìn)行的5局對(duì)決的終局棋面，AlphaGo以5:0戰(zhàn)勝FanHui。

AlphaGo之后，DeepMind又陸續(xù)推出了第二代、第三代智能體，其中，

第二代AlphaGoZero，只使用自監(jiān)督強(qiáng)化學(xué)習(xí)+無人工特征+單一網(wǎng)絡(luò)+蒙特卡羅搜索
第三代AlphaZero，在AlphaGoZero基礎(chǔ)上做了進(jìn)一步的簡(jiǎn)化，訓(xùn)練速度更快。

現(xiàn)階段，DeepMind已將AI訓(xùn)練從圍棋游戲擴(kuò)展到了更為復(fù)雜的即時(shí)戰(zhàn)略性游戲《星際爭(zhēng)霸2》，所推出的智能體AlplaStar同樣達(dá)到了戰(zhàn)勝頂級(jí)職業(yè)選手的水平。

影響力：計(jì)算機(jī)程序第一次戰(zhàn)勝人類職業(yè)選手，這是人工智能歷史上的一個(gè)重要里程碑。

Top 6：Human-level control through deep reinforcement learning

作者：Volodymyr Mnih 、Koray Kavukcuoglu et al. 2015年被《Nature》收錄，引用13615次。

論文地址：https://www.nature.com/articles/nature14236

本篇論文提出了一種強(qiáng)化學(xué)習(xí)算法Deep Q-Learning，簡(jiǎn)稱DQN，它幾乎在所有游戲上超越了之前的強(qiáng)化學(xué)習(xí)方法，并在大部分Atari游戲中表現(xiàn)的比人類更好。

人工智能領(lǐng)域的從業(yè)者對(duì)DQN可能并不陌生，它被視為深度強(qiáng)化學(xué)習(xí)的開山之作，是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來從而實(shí)現(xiàn)從感知（Perception）到動(dòng)作（ Action ）的端對(duì)端（End-to-end）學(xué)習(xí)的一種全新的算法。

圖注：DQN的網(wǎng)絡(luò)模型

為了能夠?qū)崿F(xiàn)通用人工智能，即用單一的算法解決某個(gè)領(lǐng)域的多類挑戰(zhàn)性任務(wù)，作者開發(fā)了一個(gè)深度Q網(wǎng)絡(luò)（DQN），它是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。我們知道，要想模擬現(xiàn)實(shí)世界中成功使用強(qiáng)化學(xué)習(xí)，智能體必須從高維感官輸入中獲得對(duì)環(huán)境的有效表示，并利用它們將過去的經(jīng)驗(yàn)推廣到新的場(chǎng)景中，而DQN使用端到端強(qiáng)化學(xué)習(xí)可以直接從高維感官輸入中學(xué)習(xí)策略。

在深度學(xué)習(xí)方面，作者表示通過卷積神經(jīng)網(wǎng)絡(luò)，使用多層的卷積濾波器模仿感受野的作用——靈感來自于Hubel和Wiesel在視覺回路的原始前饋處理，因此，它可以挖掘圖像中局部的空間相關(guān)的信息，建立對(duì)于視角和比例縮放自然轉(zhuǎn)換非常魯棒。

通過在Atari 2600款游戲中的測(cè)試表明，僅接收像素和游戲得分作為輸入的深度Q網(wǎng)絡(luò)超越了之前所有算法的性能，并在49款游戲中達(dá)到與人類玩家相當(dāng)?shù)乃健?/span>

圖注：DQN算法（藍(lán)色）、SOTA算法（灰色）以及人類玩家（百分比）在Atari游戲中的比較

影響力：機(jī)器人、智能制造、智能物流等領(lǐng)域背后的算法已經(jīng)從硬編碼規(guī)則轉(zhuǎn)向強(qiáng)化學(xué)習(xí)模型。DQN是目前最流行的深度強(qiáng)化學(xué)習(xí)算法之一，它在各種應(yīng)用中表現(xiàn)出了優(yōu)異性能，而且不需要人工策略的參與。

Top 5：Neural Machine Translation by Jointly Learning to Align and Translate

作者：Dzmity Bahdanau、KyungHyun Cho et al. 收錄于 ICLR 2015, 引用16866次。

論文地址：https://arxiv.org/abs/1409.0473

該論文首次提出將帶有注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)應(yīng)用于機(jī)器翻譯?！白⒁狻北碚鞯氖翘囟ㄔ~，而不是整個(gè)句子。

與傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯不同，神經(jīng)機(jī)器翻譯的目的是構(gòu)建可實(shí)現(xiàn)最大化翻譯性能的單個(gè)神經(jīng)網(wǎng)絡(luò)。現(xiàn)有的神經(jīng)機(jī)器翻譯模型通常屬于編碼器-解碼器家族，編碼器將源句子編碼為固定長(zhǎng)度的向量的編碼器，解碼器再根據(jù)該固定長(zhǎng)度向量生成翻譯。

在此基礎(chǔ)上，作者提出使用固定長(zhǎng)度的向量可以提高編碼器-解碼器體系結(jié)構(gòu)的性能，并且允許模型自動(dòng)搜索對(duì)象可擴(kuò)展此范圍。后者意味著模型課搜索與預(yù)測(cè)目標(biāo)單詞相關(guān)的源句子，而無需進(jìn)行明確的分割。

實(shí)驗(yàn)表明，該方法達(dá)到了與最先進(jìn)的基于短語的最新系統(tǒng)相同的表現(xiàn)。此外，定性分析也表明該方法發(fā)現(xiàn)的軟對(duì)齊方式與我們的直覺一致。

圖注：英法翻譯的注意矩陣，較淺的區(qū)域代表單詞之間相似性很高

影響：在機(jī)器翻譯中，RNN等傳統(tǒng)模型試圖將源語句的所有信息壓縮成一個(gè)向量。而本篇論文提出模型應(yīng)將每個(gè)詞表示為一個(gè)向量，然后關(guān)注每個(gè)詞，這一認(rèn)識(shí)對(duì)于神經(jīng)網(wǎng)絡(luò)的構(gòu)建是一個(gè)巨大的范式轉(zhuǎn)變，不僅在NLP領(lǐng)域，在ML的所有其他領(lǐng)域均是如此。

Top 4：Attention is all you need

作者：Ashish Vaswani 、Noam Shazeer 等人；收錄于NeurIPS 2017, 引用18178次；

論文地址：https://arxiv.org/abs/1706.03762

該論文提出了一種有效的神經(jīng)網(wǎng)絡(luò)Transformer，它基于注意機(jī)制在機(jī)器翻譯中取得了優(yōu)異的性能。

通常來講，序列轉(zhuǎn)導(dǎo)模型基于復(fù)雜的遞歸或卷積神經(jīng)網(wǎng)絡(luò)，包括編碼器和解碼器，表現(xiàn)最佳的模型還通過注意力機(jī)制連接編碼器和解碼器。基于此，作者提出了一種新的簡(jiǎn)單網(wǎng)絡(luò)架構(gòu)，即Transformer，它完全基于注意力機(jī)制，完全消除了重復(fù)和卷積。

圖注：基于編解碼器的Transformer架構(gòu)

實(shí)驗(yàn)表明，該模型在機(jī)器翻譯任務(wù)上表現(xiàn)良好，具有更高的可并行性，所需的訓(xùn)練時(shí)間也大大減少。如在WMT 2014英語到德語的翻譯任務(wù)上達(dá)到了28.4 BLEU，比包括集成學(xué)習(xí)在內(nèi)的現(xiàn)有最佳結(jié)果提高了2 BLEU；在2014年WMT英語到法語翻譯任務(wù)中，創(chuàng)造了新的單模型最新BLEU分?jǐn)?shù)41.8，比文獻(xiàn)中最好的模型的訓(xùn)練成本更小。

由此證明了Transformer應(yīng)用于具有大量訓(xùn)練數(shù)據(jù)和有限訓(xùn)練數(shù)據(jù)的英語解析可以很好的概括其他任務(wù)。

影響力：在Transformer模型中引入的多頭注意力是最受歡迎的深度學(xué)習(xí)模塊，也是另一主流語言模型BERT的一部分，它取代RNNs和CNNs，成為了處理文本和圖像任務(wù)的默認(rèn)模型。

Top 3：Faster R-CNN: towards real-time object detection with region proposal networks

作者：Shaoqing Ren ，Kaming He et al.收錄于NeurIPS 2015, 引用19915次。

論文地址：https://arxiv.org/abs/1506.01497

該論文提出了一種用于目標(biāo)檢測(cè)的高效端到端卷積神經(jīng)網(wǎng)絡(luò)，包括圖像和視頻中。

最先進(jìn)的物體檢測(cè)網(wǎng)絡(luò)依靠區(qū)域提議算法來假設(shè)物體的位置，基于此，作者在現(xiàn)有研究基礎(chǔ)上，提出了一種區(qū)域提議網(wǎng)絡(luò)（RPN），該網(wǎng)絡(luò)與檢測(cè)網(wǎng)絡(luò)共享全圖像卷積特征，從而實(shí)現(xiàn)幾乎免費(fèi)的區(qū)域提議。

RPN是一個(gè)完全卷積的網(wǎng)絡(luò)，能夠同時(shí)預(yù)測(cè)每個(gè)位置的對(duì)象邊界和對(duì)象性分?jǐn)?shù)。對(duì)RPN進(jìn)行了端到端訓(xùn)練，可以生成高質(zhì)量的區(qū)域建議，然后Fast R-CNN再通過這些建議進(jìn)行檢測(cè)。

作者表明通過共享RPN和Fast R-CNN的卷積特征，具有“注意力”機(jī)制的神經(jīng)網(wǎng)絡(luò)可將這些特征合并為一個(gè)網(wǎng)絡(luò)。對(duì)于深層VGG-16模型，該檢測(cè)系統(tǒng)在GPU上的幀速率為5fps（包括所有步驟），同時(shí)在PASCAL VOC 2007、2012和MS COCO數(shù)據(jù)集上實(shí)現(xiàn)了最新的對(duì)象檢測(cè)精度（每張圖片有300個(gè)建議）。在ILSVRC和COCO 2015競(jìng)賽中，F(xiàn)aster R-CNN和RPN是多個(gè)項(xiàng)目上獲得最佳模型的基礎(chǔ)。

圖注：在PASCAL VOC 2007測(cè)試中，使用RPN可以檢測(cè)各種比例和寬高比的物體

影響：更快速是R-CNN是在工業(yè)場(chǎng)景中被廣泛應(yīng)用的主要原因之一。它在安全攝像頭、自動(dòng)駕駛和移動(dòng)應(yīng)用程序中的應(yīng)用極大地影響了我們對(duì)機(jī)器的感知。

Top2：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

作者：Sergey Ioffe and Szegedy, 收錄于ICML 2015, 引用 25297次。

論文地址：https://theaisummer.com/normalization/

該論文提出通過對(duì)輸入特征進(jìn)行歸一化的方法，可使神經(jīng)網(wǎng)絡(luò)訓(xùn)練更快，更穩(wěn)定。

訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)是一個(gè)復(fù)雜的過程，一方面，隨著各層參數(shù)的變化，輸入的分布也會(huì)發(fā)生改變，而由于參數(shù)初始化和較低的學(xué)習(xí)效率，會(huì)導(dǎo)致訓(xùn)練速度減慢。另一方面，訓(xùn)練飽和的非線性模型非常困難。

作者將這兩種現(xiàn)象歸結(jié)為內(nèi)部協(xié)變量偏移，并提出通過歸一化輸入層來解決。即通過將歸一化作為模型體系結(jié)構(gòu)的一部分，并為每次小批量訓(xùn)練執(zhí)行歸一化。這種批處理規(guī)范化處理方法可以顯著提高學(xué)習(xí)率，同時(shí)不必對(duì)初始化進(jìn)行任何注意，在某些情況下，也無需進(jìn)行輟學(xué)。

圖注：批處理規(guī)范的說明

論文中指出批歸一化應(yīng)用于最先進(jìn)的圖像分類模型，能夠以相同精度，減少14倍的訓(xùn)練速度擊敗原始模型。論文中，作者展示了使用批歸一化網(wǎng)絡(luò)處理ImageNet分類圖像的結(jié)果：達(dá)到4.82％的top-5測(cè)試錯(cuò)誤，超過了人類評(píng)分者的準(zhǔn)確性。

影響力：該方法廣泛應(yīng)用于大多數(shù)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)。批處理規(guī)范化是現(xiàn)代深度神經(jīng)年網(wǎng)絡(luò)獲得最佳結(jié)果的原因之一。

Top 1：Adam: A Method for Stochastic Optimization

作者：Kingma and Ba，收錄于ICLR 2015，引用 67514次。

本篇論文在五年里引用量最高接近7萬次，它主要描述了一種新型的隨機(jī)梯度下降優(yōu)化算法（Adam），顯著提高了神經(jīng)網(wǎng)絡(luò)的快速收斂率，在所有模型訓(xùn)練中具有普遍的適用性。

基于低階矩的自適應(yīng)估計(jì)的Adam，是一種基于一階梯度的隨機(jī)目標(biāo)函數(shù)優(yōu)化算法。它具有易實(shí)現(xiàn)，計(jì)算高效，存儲(chǔ)需求小，對(duì)梯度對(duì)角線縮放無影響的特點(diǎn)，適合處理參數(shù)量、數(shù)據(jù)量較大，非固定目標(biāo)以及嘈雜或稀疏梯度等問題。作者在論文中分析了Adam的理論收斂性，并提供了與在線凸優(yōu)化框架下的最佳結(jié)果相當(dāng)?shù)氖諗俊?/span>

圖注：Adam收斂更快

實(shí)驗(yàn)結(jié)果表明，與其他隨機(jī)優(yōu)化方法相比，Adam在實(shí)踐中的效果更好。作者在論文中還進(jìn)一步探討了Adam的變體，即基于無窮范數(shù)的AdaMax。

影響：作為優(yōu)化算法的默認(rèn)方法，Adam已訓(xùn)練了的數(shù)以百萬計(jì)的神經(jīng)網(wǎng)絡(luò)。

參考來源：https://towardsdatascience.com/top-10-research-papers-in-ai-1f02cf844e26


個(gè)人微信（如果沒有備注不拉群！）
請(qǐng)注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



下載1：何愷明頂會(huì)分享

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：終身受益的編程指南：Google編程風(fēng)格指南

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：c++，即可下載。歷經(jīng)十年考驗(yàn)，最權(quán)威的編程規(guī)范！


下載3 CVPR2021

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：CVPR，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點(diǎn)亮 ，告訴大家你也在看

五年引用量最高的10大AI論文：Adam第一，Transformer上榜，竟然沒有ResNet？

作者：Ian J. Goodfellow, J Shlens, C Szegedy ，收錄于 ICLR 2015，引用 6995次.

Top9：Semi-Supervised Classification with Graph Convolutional Networks

作者：Thomas Kipf 、Max Welling, 收錄于ICLR 2017, 引用7021次

作者：Alec Radford 、Luke Metz et al. 收錄于 ICLR 2016, 引用 8681次。

Top 7：Mastering the game of Go with deep neural networks and tree search

作者：David Silver 、Aja Huang et al. 2016年被《Nature》收錄，引用9621次。

作者：Volodymyr Mnih 、Koray Kavukcuoglu et al. 2015年被《Nature》收錄，引用13615次。

Top 5：Neural Machine Translation by Jointly Learning to Align and Translate

作者：Dzmity Bahdanau、KyungHyun Cho et al. 收錄于 ICLR 2015, 引用16866次。

作者：Ashish Vaswani 、Noam Shazeer 等人；收錄于NeurIPS 2017, 引用18178次；