操逼逼视频网站,六月色婷,尻逼网,久久夜色AV,很很操很很干,五月天婷婷激情视频,日韩免费毛片,欧美一级片内射欧美AA99

點(diǎn)擊上方“小白學(xué)視覺”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

圍繞深度學(xué)習(xí)的“噪聲”經(jīng)常誤導(dǎo)外行人以為這是一種新發(fā)明的技術(shù)，使他們?yōu)橹徽竦氖钱?dāng)他們知道深度學(xué)習(xí)早在1940-1950年代就奠定了基礎(chǔ)。還有很長的歷史，其中最流行的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和理論已經(jīng)在整個(gè)20世紀(jì)后半期提出深的學(xué)問。如果是這種情況，那么你們可能會問，為什么在當(dāng)前時(shí)代發(fā)生了深度學(xué)習(xí)革命，為什么不回溯幾十年。

簡單來說，在那些時(shí)期內(nèi)，不存在有效訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)所需的正確硬件和計(jì)算能力。因此所有的理論大部分都在紙上，沒有實(shí)際的支持。盡管專門的研究人員繼續(xù)在神經(jīng)網(wǎng)絡(luò)上開展工作，直到2000年代下半葉，當(dāng)硬件革命開始興起時(shí)，但它大部分都是不切實(shí)際的理論。

深度學(xué)習(xí)中早期使用GPU的極簡史

NVIDIA于1999年推出了首款商用GPU GeForce 256，并在2000年代開始將自己定位為GPU技術(shù)的領(lǐng)先創(chuàng)新者，以推動(dòng)圖形業(yè)發(fā)展。代表圖形處理單元的GPU由于其并行處理能力可以使游戲的圖形幀比CPU快得多，因此開始獲得游戲玩家的青睞，從而提供了無縫的游戲體驗(yàn)。NVIDIA在2007年發(fā)布了面向軟件程序員的框架CUDA（計(jì)算機(jī)統(tǒng)一設(shè)備架構(gòu)），他們可以利用CUDA API在NVIDIA GPU上進(jìn)行GPU上的通用計(jì)算（GPGPU）。

除了在圖形處理中的傳統(tǒng)用途外，CUDA還允許工程師和科學(xué)家在需要并行計(jì)算的其他領(lǐng)域使用GPU，尤其是在那些令人尷尬的并行且無需任何操作的任務(wù)中。如果你們了解神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)原理，則應(yīng)該認(rèn)識到它的矩陣運(yùn)算屬于令人尷尬的并行計(jì)算類別，因此使其成為GPGPU的理想選擇。

圖1 并行執(zhí)行神經(jīng)網(wǎng)絡(luò)的矩陣計(jì)算

Kumar Chellapilla于2006年在GPU上實(shí)現(xiàn)CNN是已知的將GPU用于深度學(xué)習(xí)的最早嘗試。斯坦福大學(xué)教授和Coursera的創(chuàng)始人安德魯·伍（Andrew NG）自2008年以來就是使用GPU進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的早期支持者之一，其他很少有研究人員在CUDA的幫助下，在2008-2009年之后開始積極地進(jìn)行GPU實(shí)驗(yàn)。但是，它是2012年Imagenet挑戰(zhàn)圖像分類模型Alexnet的獲勝者事實(shí)證明，這是具有GPU加速功能的具有里程碑意義的深度學(xué)習(xí)模型。絕對不是在深度學(xué)習(xí)中首次使用GPU，而是在這一盛大的階段贏得了它的狂熱地位和主流媒體的關(guān)注，從而引發(fā)了深度學(xué)習(xí)革命。

GPU與CPU架構(gòu)

圖2 GPU與CPU架構(gòu)

讓我們比較一下CPU和GPU的體系結(jié)構(gòu)，以了解為什么GPU在神經(jīng)網(wǎng)絡(luò)上執(zhí)行操作要比CPU更好。

第一個(gè)主要的明顯區(qū)別是CPU僅具有幾個(gè)內(nèi)核來執(zhí)行算術(shù)運(yùn)算，而GPU可以具有成千上萬個(gè)這樣的內(nèi)核。從一個(gè)角度來看，一個(gè)標(biāo)準(zhǔn)的性能良好的CPU有8個(gè)內(nèi)核，而功能強(qiáng)大的CPU Intel Core i9-10980XE有18個(gè)內(nèi)核。另一方面，出色的GeForce GTX TITAN Z NVIDIA GPU具有5760個(gè)CUDA內(nèi)核。如此多的內(nèi)核使GPU可以非常高效地進(jìn)行并行計(jì)算以產(chǎn)生高吞吐量。GPU還具有比CPU高的內(nèi)存帶寬，從而使GPU可以一次在存儲單元之間移動(dòng)大量數(shù)據(jù)。

由于其高內(nèi)存帶寬和并行化，GPU可以立即加載神經(jīng)網(wǎng)絡(luò)矩陣的很大一部分，并進(jìn)行并行計(jì)算以產(chǎn)生輸出。另一方面，與GPU相比，CPU將以幾乎可以忽略的并行化順序加載數(shù)字。這就是為什么對于具有大型矩陣運(yùn)算的大型深度神經(jīng)網(wǎng)絡(luò)而言，GPU可以勝過CPU的原因。

應(yīng)該注意的是，擁有如此多的內(nèi)核并不能使GPU在所有操作上都優(yōu)于CPU。由于其低延遲，CPU可以更快地處理無法分解為并行化的任何操作。因此，CPU將比GPU更快地計(jì)算順序浮點(diǎn)運(yùn)算。

張量核心的奇跡

圖3 Voltas Tensor核心性能

隨著GPU在深度學(xué)習(xí)中的廣泛采用，NVIDIA在2017年推出了GPU Tesla Tesla V100，它具有新型的Voltas架構(gòu)，該架構(gòu)具有稱為Tensor Core的專用內(nèi)核，以支持神經(jīng)網(wǎng)絡(luò)的特定張量操作。NVIDIA聲稱，Volta Tensor Core的吞吐率比使用常規(guī)CUDA的前代產(chǎn)品高出12倍。

圖4 矩陣的計(jì)算操作支持張量核心

其背后的基本方法是Tensor Core專門用于將兩個(gè)4x4 FP16矩陣相乘并在其中添加4x4 FP16或FP32矩陣（FP代表浮點(diǎn)數(shù)）。這樣的矩陣運(yùn)算在神經(jīng)網(wǎng)絡(luò)中非常普遍，因此具有一個(gè)專用的Tensor Core進(jìn)行優(yōu)化的優(yōu)勢，以使其比傳統(tǒng)的CUDA內(nèi)核執(zhí)行得更快。

GPU在深度學(xué)習(xí)中究竟起了什么作用