日韩特级片,日韩中文字幕在线观看视频,亚洲逼院,污视频在线免费观看一区,五月丁香婷中文,欧美高清中文字幕精品日韩不卡国产在线一区 ,五月婷婷丁香花,欧美成人免费网站

點(diǎn)擊上方“人工智能與算法學(xué)習(xí)”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

本文轉(zhuǎn)自深度學(xué)習(xí)這件小事

斯坦福大學(xué)博士生與 Facebook 人工智能研究所研究工程師 Edward Z. Yang 是 PyTorch 開源項(xiàng)目的核心開發(fā)者之一。他在 PyTorch 紐約聚會(huì)上做了一個(gè)有關(guān) PyTorch 內(nèi)部機(jī)制的演講，本文是該演講的長(zhǎng)文章版本。

大家好！今天我想談?wù)?PyTorch 的內(nèi)部機(jī)制。

這份演講是為用過 PyTorch并且有心為 PyTorch 做貢獻(xiàn)但卻被 PyTorch 那龐大的 C++ 代碼庫(kù)勸退的人提供的。沒必要說謊：PyTorch 代碼庫(kù)有時(shí)候確實(shí)讓人難以招架。

本演講的目的是為你提供一份導(dǎo)航圖：為你講解一個(gè)「支持自動(dòng)微分的張量庫(kù)」的基本概念結(jié)構(gòu)，并為你提供一些能幫你在代碼庫(kù)中尋路的工具和技巧。我預(yù)設(shè)你之前已經(jīng)寫過一些 PyTorch，但卻可能還沒有深入理解機(jī)器學(xué)習(xí)軟件庫(kù)的編寫方式。

本演講分為兩部分：在第一部分中，我首先會(huì)全面介紹張量庫(kù)的各種概念。我首先會(huì)談?wù)勀銈冎狼蚁矏鄣?/span>張量數(shù)據(jù)類型，并詳細(xì)討論這種數(shù)據(jù)類型究竟能提供什么，這能讓我們更好地理解其內(nèi)部真正的實(shí)現(xiàn)方式。

如果你是一位 PyTorch 高級(jí)用戶，你可能已經(jīng)熟悉其中大部分材料了。我們也會(huì)談到「擴(kuò)展點(diǎn)（extension points）」的三個(gè)概念、布局（layout）、設(shè)備（device）和數(shù)據(jù)類型（dtype），這能引導(dǎo)我們思考張量類的擴(kuò)展的方式。在 PyTorch 紐約聚會(huì)的現(xiàn)場(chǎng)演講中，我略過了有關(guān)自動(dòng)梯度（autograd）的幻燈片，但我在這里會(huì)進(jìn)行一些講解。

第二部分會(huì)闡述真正用 PyTorch 寫代碼時(shí)所涉及的基本細(xì)節(jié)。我會(huì)告訴你如何在 autograd 代碼中披荊斬棘、什么代碼是真正重要的以及怎樣造福他人，我還會(huì)介紹 PyTorch 為你寫核（kernel）所提供的所有炫酷工具。

概念

張量

張量是 PyTorch 中的核心數(shù)據(jù)結(jié)構(gòu)。對(duì)于張量直觀上所表示的東西，你可能已有很好的理解：張量是一種包含某種標(biāo)量類型（比如浮點(diǎn)數(shù)和整型數(shù)等）的 n 維數(shù)據(jù)結(jié)構(gòu)。我們可以將張量看作是由一些數(shù)據(jù)構(gòu)成的，還有一些元數(shù)據(jù)描述了張量的大小、所包含的元素的類型（dtype）、張量所在的設(shè)備（CPU 內(nèi)存？CUDA 內(nèi)存？）

另外還有一個(gè)你可能沒那么熟悉的元數(shù)據(jù)：步幅（stride）。stride 實(shí)際上是 PyTorch 最別致的特征之一，所以值得稍微多討論它一些。

張量一個(gè)數(shù)學(xué)概念。但要在我們的計(jì)算機(jī)中表示它，我們必須為它們定義某種物理表示方法。最常用的表示方法是在內(nèi)存中相鄰地放置張量的每個(gè)元素（這也是術(shù)語「contiguous（鄰接）」的來源），即將每一行寫出到內(nèi)存，如上所示。在上面的案例中，我已經(jīng)指定該張量包含 32 位的整型數(shù)，這樣你可以看到每一個(gè)整型數(shù)都位于一個(gè)物理地址中，每個(gè)地址與相鄰地址相距 4 字節(jié)。為了記住張量的實(shí)際維度，我們必須將規(guī)模大小記為額外的元數(shù)據(jù)。

所以這幅圖與步幅有什么關(guān)系？

假設(shè)我想要讀取我的邏輯表示中位置張量 [0,1] 的元素。我該如何將這個(gè)邏輯位置轉(zhuǎn)譯為物理內(nèi)存中的位置？步幅能讓我們做到這一點(diǎn)：要找到一個(gè)張量中任意元素的位置，我將每個(gè)索引與該維度下各自的步幅相乘，然后將它們?nèi)考拥揭黄稹Ｔ谏蠄D中，我用藍(lán)色表示第一個(gè)維度，用紅色表示第二個(gè)維度，以便你了解該步幅計(jì)算中的索引和步幅。進(jìn)行這個(gè)求和后，我得到了 2（零索引的）；實(shí)際上，數(shù)字 3 正是位于這個(gè)鄰接數(shù)組的起點(diǎn)以下 2 個(gè)位置。

（后面我還會(huì)談到 TensorAccessor，這是一個(gè)處理索引計(jì)算的便利類（convenience class）。當(dāng)你使用 TensorAccessor 時(shí)，不會(huì)再操作原始指針，這些計(jì)算過程已經(jīng)為你隱藏了起來。）

步幅是我們?yōu)?PyTorch 用戶講解方法的基本基礎(chǔ)。舉個(gè)例子，假設(shè)我想取出一個(gè)表示以上張量的第二行的張量：

使用高級(jí)的索引支持，我只需寫出張量 [1, :] 就能得到這一行。重要的是：當(dāng)我這樣做時(shí)，不會(huì)創(chuàng)建一個(gè)新張量；而是會(huì)返回一個(gè)基于底層數(shù)據(jù)的不同域段（view）的張量。這意味著，如果我編輯該視角下的這些數(shù)據(jù)，它就會(huì)反映在原始的張量中。

在這種情況下，了解如何做到這一點(diǎn)并不算太困難：3 和 4 位于鄰接的內(nèi)存中，我們只需要記錄一個(gè)說明該（邏輯）張量的數(shù)據(jù)位于頂部以下 2 個(gè)位置的偏移量（offset）。（每個(gè)張量都記錄一個(gè)偏移量，但大多數(shù)時(shí)候它為零，出現(xiàn)這種情況時(shí)我會(huì)在我的圖表中省略它。）

演講時(shí)的提問：如果我取張量的一個(gè)域段，我該如何釋放底層張量的內(nèi)存？

答案：你必須制作該域段的一個(gè)副本，由此斷開其與原始物理內(nèi)存的連接。你能做的其它事情實(shí)際上并不多。另外，如果你很久之前寫過 Java，取一個(gè)字符串的子字符串也有類似的問題，因?yàn)槟J(rèn)不會(huì)制作副本，所以子字符串會(huì)保留（可能非常大的字符串）。很顯然，Java 7u6 將其固定了下來。

如果我想取第一列，還會(huì)更有意思：

當(dāng)我們查看物理內(nèi)存時(shí)，可以看到該列的元素不是相鄰的：兩者之間有一個(gè)元素的間隙。步幅在這里就大顯神威了：我們不再將一個(gè)元素與下一個(gè)元素之間的步幅指定為 1，而是將其設(shè)定為 2，即跳兩步。（順便一提，這就是其被稱為「步幅（stride）」的原因：如果我們將索引看作是在布局上行走，步幅就指定了我們每次邁步時(shí)向前多少位置。）

步幅表示實(shí)際上可以讓你表示所有類型的張量域段；如果你想了解各種不同的可能做法，請(qǐng)參閱 https://ezyang.github.io/stride-visualizer/index.html

我們現(xiàn)在退一步看看，想想我們究竟如何實(shí)現(xiàn)這種功能（畢竟這是一個(gè)關(guān)于內(nèi)部機(jī)制的演講）。如果我們可以得到張量的域段，這就意味著我們必須解耦張量的概念（你所知道且喜愛的面向用戶的概念）以及存儲(chǔ)張量的數(shù)據(jù)的實(shí)際物理數(shù)據(jù)的概念（稱為「存儲(chǔ)（storage）」）：

也許會(huì)有多個(gè)張量共享同一存儲(chǔ)。存儲(chǔ)會(huì)定義張量的 dtype 和物理大小，同時(shí)每個(gè)張量還會(huì)記錄大小、步幅和偏移量，這定義的是物理內(nèi)存的邏輯解釋。

有一點(diǎn)需要注意：總是會(huì)存在一個(gè)張量-存儲(chǔ)對(duì)，即使并不真正需要存儲(chǔ)的「簡(jiǎn)單」情況也是如此（比如，只是用 torch.zeros(2, 2) 劃配一個(gè)鄰接張量時(shí)）。

順便一提，我們感興趣的不是這種情況，而是有一個(gè)分立的存儲(chǔ)概念的情況，只是將一個(gè)域段定義為有一個(gè)基張量支持的張量。這會(huì)更加復(fù)雜一些，但也有好處：鄰接張量可以實(shí)現(xiàn)遠(yuǎn)遠(yuǎn)更加直接的表示，而沒有存儲(chǔ)造成的間接麻煩。這樣的變化能讓 PyTorch 的內(nèi)部表示方式更接近 Numpy。

我們已經(jīng)介紹了一些張量的數(shù)據(jù)布局（有人可能會(huì)說，如果你正確地理解了數(shù)據(jù)表示，其它一切都會(huì)自然到位）。但還是有必要簡(jiǎn)要談?wù)勅绾螌?shí)現(xiàn)對(duì)張量的操作。在最抽象的層面上，當(dāng)你調(diào)用 torch.mm 時(shí)，會(huì)發(fā)生兩次調(diào)度：

第一次調(diào)度基于設(shè)備類型和張量布局：比如是 CPU 張量還是 CUDA張量，是有步幅的張量還是稀疏的張量。這個(gè)調(diào)度是動(dòng)態(tài)的：這是一個(gè)虛函數(shù)（virtual function）調(diào)用（這個(gè)虛函數(shù)調(diào)用究竟發(fā)生在何處是本演講后半部分的主題）。

這里需要做一次調(diào)度應(yīng)該是合理的：CPU 矩陣乘法的實(shí)現(xiàn)非常不同于 CUDA 的實(shí)現(xiàn)。這里是動(dòng)態(tài)調(diào)度的原因是這些核（kernel）可能位于不同的庫(kù)（比如 libcaffe2.so 或 libcaffe2_gpu.so），這樣你就別無選擇：如果你想進(jìn)入一個(gè)你沒有直接依賴的庫(kù)，你必須通過動(dòng)態(tài)調(diào)度抵達(dá)那里。

第二次調(diào)度是在所涉 dtype 上的調(diào)度。這個(gè)調(diào)度只是一個(gè)簡(jiǎn)單的 switch 語句，針對(duì)的是核選擇支持的任意 dtype。這里需要調(diào)度的原因也很合理：CPU 代碼（或 CUDA 代碼）是基于 float 實(shí)現(xiàn)乘法，這不同于用于 int 的代碼。這說明你需要為每種 dtype 都使用不同的核。

如果你想要理解 PyTorch 中算子的調(diào)用方式，這可能就是你頭腦中應(yīng)有的最重要的知識(shí)。后面當(dāng)我們更深入代碼時(shí)還會(huì)回到這里。

因?yàn)槲覀円呀?jīng)談過了張量，所以我還想花點(diǎn)時(shí)間談?wù)剰埩繑U(kuò)展。畢竟，除了密集的 CPU 浮點(diǎn)數(shù)張量，還有其它很多類型的張量，比如 XLA 張量、量化張量、MKL-DNN 張量；而對(duì)于一個(gè)張量庫(kù)，還有一件需要思考的事情：如何兼顧這些擴(kuò)展？

我們當(dāng)前的用于擴(kuò)展的模型提供了張量的四個(gè)擴(kuò)展點(diǎn)。首先，有三個(gè)獨(dú)立地確定張量類型的配套參數(shù)：

device（設(shè)備）：描述了實(shí)際存儲(chǔ)張量的物理內(nèi)存，比如在 CPU、英偉達(dá) GPU（cuda）、AMD GPU（hip）或 TPU（xla）上。設(shè)備之間各不相同的特性是有各自自己的分配器（allocator），這沒法用于其它設(shè)備。
layout（布局）：描述了對(duì)物理內(nèi)存進(jìn)行邏輯解讀的方式。最常用的布局是有步幅的張量（strided tensor），但稀疏張量的布局不同，其涉及到一對(duì)張量，一個(gè)用于索引，一個(gè)用于數(shù)據(jù)；MKL-DNN 張量的布局更加奇特，比如 blocked layout，僅用步幅不能表示它。
dtype（數(shù)據(jù)類型）：描述了張量中每個(gè)元素實(shí)際存儲(chǔ)的數(shù)據(jù)的類型，比如可以是浮點(diǎn)數(shù)、整型數(shù)或量化的整型數(shù)。

如果你想為 PyTorch 張量添加一種擴(kuò)展，你應(yīng)該思考你想要擴(kuò)展這些參數(shù)中的哪幾種。這些參數(shù)的笛卡爾積定義了你可以得到的所有可能的張量。現(xiàn)在，并非所有這些組合都有核（誰為 FPGA 上的稀疏量化張量用核?），但原則上這種組合可能有意義，因此我們至少應(yīng)該支持表達(dá)它。

要為張量的功能添加「擴(kuò)展」，還有最后一種方法，即圍繞能實(shí)現(xiàn)的目標(biāo)類型的 PyTorch 張量編寫一個(gè) wrapper（包裝）類。這可能聽起來理所當(dāng)然，但有時(shí)候人們?cè)谥恍枰谱饕粋€(gè) wrapper 類時(shí)卻跑去擴(kuò)展那三個(gè)參數(shù)。wrapper 類的一個(gè)突出優(yōu)點(diǎn)是開發(fā)結(jié)果可以完全不影響原來的類型（out of tree）。

你何時(shí)應(yīng)該編寫張量 wrapper，而不是擴(kuò)展 PyTorch 本身？關(guān)鍵的指標(biāo)是你是否需要將這個(gè)張量傳遞通過 autograd（自動(dòng)梯度）反向通過過程。舉個(gè)例子，這個(gè)指標(biāo)告訴我們稀疏張量應(yīng)該是一種真正的張量擴(kuò)展，而不只是一種包含一個(gè)索引和值張量的 Python 對(duì)象：當(dāng)在涉及嵌入的網(wǎng)絡(luò)上執(zhí)行優(yōu)化時(shí)，我們想要嵌入生成稀疏的梯度。

我們對(duì)擴(kuò)展的理念也會(huì)影響張量本身的數(shù)據(jù)布局。對(duì)于我們的張量結(jié)構(gòu)，我們真正想要的一件事物是固定的布局：我們不想要基本操作（這個(gè)說法很常見），比如「一個(gè)張量的大小是多少？」來請(qǐng)求虛調(diào)度。

所以當(dāng)你查看一個(gè)張量的實(shí)際布局時(shí)（定義為 TensorImpl 結(jié)構(gòu)），會(huì)看到所有字段的一個(gè)公共前綴——我們認(rèn)為所有類似「張量」的東西都會(huì)有；還有一些字段僅真正適用于有步幅的張量，但它們也很重要，所以我們將其保留在主結(jié)構(gòu)中；然后可以在每個(gè)張量的基礎(chǔ)上完成有自定義字段的后綴。比如稀疏張量可將其索引和值存儲(chǔ)在這個(gè)后綴中。

自動(dòng)梯度（autograd）

我已經(jīng)說明了張量，但如果 PyTorch 僅有這點(diǎn)把戲，這就只不過是 Numpy 的克隆罷了。PyTorch 的顯著特性是其在最初發(fā)布時(shí)就已提供對(duì)張量的自動(dòng)微分（現(xiàn)在我們還有 TorchScript 等炫酷功能，但那時(shí)候就只有這個(gè)！）

自動(dòng)微分是做啥？這是負(fù)責(zé)運(yùn)行神經(jīng)網(wǎng)絡(luò)的機(jī)制：

……以及填充實(shí)際計(jì)算你的網(wǎng)絡(luò)的梯度時(shí)所缺少的代碼：

花點(diǎn)時(shí)間看看這幅圖。其中有很多東西需要解讀，我們來看看：

首先將你的目光投向紅色和藍(lán)色的變量。PyTorch 實(shí)現(xiàn)了反向模式自動(dòng)微分，這意味著我們可以「反向」走過前向計(jì)算來有效地計(jì)算梯度。查看變量名就能看到這一點(diǎn)：在紅色部分的底部，我們計(jì)算的是損失（loss）；然后在這個(gè)程序的藍(lán)色部分，我們所做的第一件事是計(jì)算 grad_loss。loss 根據(jù) next_h2 計(jì)算，這樣我們可以計(jì)算出 grad_next_h2。從技術(shù)上講，我們加了 grad_ 的變量其實(shí)并不是梯度，它們實(shí)際上左乘了一個(gè)向量的雅可比矩陣，但在 PyTorch 中，我們就稱之為 grad，基本上所有人都知道這是什么意思。
如果代碼的結(jié)構(gòu)保持一樣，而行為沒有保持一樣：來自前向的每一行都被替換為一個(gè)不同的計(jì)算，其代表了前向運(yùn)算的導(dǎo)數(shù)。舉個(gè)例子，tanh 運(yùn)算被轉(zhuǎn)譯成了 tanh_backward 運(yùn)算（這兩行用圖左邊一條灰線連接）。前向和反向運(yùn)算的輸入和輸出交換：如果前向運(yùn)算得到 next_h2，反向運(yùn)算就以 grad_next_h2 為輸入。

autograd 的意義就在于執(zhí)行這幅圖所描述的計(jì)算，但卻不用真正生成這個(gè)源。PyTorch autograd 并不執(zhí)行源到源的變換（盡管 PyTorch JIT 確實(shí)知道如何執(zhí)行符號(hào)微分（symbolic differentiation））。

要做到這一點(diǎn)，我們需要在張量上執(zhí)行運(yùn)算時(shí)存儲(chǔ)更多元數(shù)據(jù)。讓我們調(diào)整一下我們對(duì)張量數(shù)據(jù)結(jié)構(gòu)的圖：現(xiàn)在不只是一個(gè)指向存儲(chǔ)的張量，我們還有一個(gè)包裝這個(gè)張量的變量，而且也存儲(chǔ)更多信息（AutogradMeta），這是用戶在自己的 PyTorch 腳本中調(diào)用 loss.backward() 執(zhí)行 autograd 時(shí)所需的。

這張幻燈片的內(nèi)容在不久的將來就會(huì)過時(shí)。Will Feng 在簡(jiǎn)單融合了 PyTorch 的前端端口之后，正在推動(dòng) C++ 中變量和張量的融合：https://github.com/pytorch/pytorch/issues/13638。

我們也必須更新上面關(guān)于調(diào)度的圖：

在我們調(diào)度到 CPU 或 CUDA 實(shí)現(xiàn)之前，還有另一個(gè)對(duì)變量的調(diào)度，其負(fù)責(zé)打開（unwrap）變量，調(diào)用底層實(shí)現(xiàn)（綠色），然后再重新將結(jié)果包裝進(jìn)變量并為反向過程記錄必需的 autograd 元數(shù)據(jù)。

某些實(shí)現(xiàn)不會(huì) unwrap；它們只是調(diào)用其它變量實(shí)現(xiàn)。所以你可能要在變量宇宙中花些時(shí)間。但是，一旦你 unwrap 并進(jìn)入了非變量張量宇宙，你就到達(dá)終點(diǎn)了；你再也不用退回變量（除非從你的函數(shù)返回）。

在我的紐約聚會(huì)演講中，我跳過了以下七頁(yè)幻燈片。對(duì)它們的文本介紹還要等一段時(shí)間。

工程開發(fā)

說夠了概念，我們來看看代碼。

找到你的路徑

PyTorch 有大量文件夾，在 CONTRIBUTING.md 文檔中有對(duì)它們的非常詳細(xì)的描述，但實(shí)際上你只需知曉 4 個(gè)目錄：

首先，torch/ 包含你最熟悉的東西：你導(dǎo)入和使用的實(shí)際的 Python 模塊。這些東西是 Python 代碼而且易于操作（只需要進(jìn)行修改然后查看結(jié)果即可）。但是，如果太過深入……
torch/csrc/：實(shí)現(xiàn)了你可能稱為 PyTorch 前端的 C++ 代碼。用更描述性的術(shù)語講，它實(shí)現(xiàn)了在 Python 和 C++ 間轉(zhuǎn)換的綁定代碼（binding code）；另外還有一些相當(dāng)重要的 PyTorch 部分，比如 autograd 引擎和 JIT 編譯器。它也包含 C++ 前端代碼。
aten/：這是「A Tensor Library」的縮寫（由 Zachary DeVito 命名），是一個(gè)實(shí)現(xiàn)張量運(yùn)算的 C++ 庫(kù)。如果你檢查某些核代碼所處的位置，很可能就在 ATen。ATen 本身就分為兩個(gè)算子區(qū)域：「原生」算子（算子的現(xiàn)代的 C++ 實(shí)現(xiàn)）和「?jìng)鹘y(tǒng)」算子（TH、THC、THNN、THCUNN），這些是遺留的 C 實(shí)現(xiàn)。傳統(tǒng)的算子是其中糟糕的部分；如果可以，請(qǐng)勿在上面耗費(fèi)太多時(shí)間。
c10/：這是「Caffe2」和「A"Ten"」的雙關(guān)語，包含 PyTorch 的核心抽象，包括張量和存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)的實(shí)際實(shí)現(xiàn)。

找代碼需要看很多地方；我們應(yīng)該簡(jiǎn)化目錄結(jié)構(gòu)，就是這樣。如果你想研究算子，你應(yīng)該在 aten 上花時(shí)間。

我們看看在實(shí)踐中是如何分離這些代碼的：

當(dāng)你調(diào)用一個(gè)函數(shù)時(shí)，比如 torch.add，會(huì)發(fā)生什么？如果你記得我們的有關(guān)調(diào)度的討論，你腦中應(yīng)該已有了這些基礎(chǔ)：

我們必須從 Python 國(guó)度轉(zhuǎn)換到 C++ 國(guó)度（Python 參數(shù)解析）。
我們處理變量調(diào)度（VariableType—Type，順便一提，和編程語言類型并無特別關(guān)聯(lián)，只是一個(gè)用于執(zhí)行調(diào)度的小工具）。
我們處理設(shè)備類型/布局調(diào)度（Type）。
我們有實(shí)際的核，這要么是一個(gè)現(xiàn)代的原生函數(shù)，要么是傳統(tǒng)的 TH 函數(shù)。

其中每一步都具體對(duì)應(yīng)于一些代碼。讓我們開路穿過這片叢林。

我們?cè)?C++ 代碼中的起始著陸點(diǎn)是一個(gè) Python 函數(shù)的 C 實(shí)現(xiàn)，我們已經(jīng)在 Python 那邊見過它，像是 torch._C.VariableFunctions.add。THPVariable_add 就是這樣一個(gè)實(shí)現(xiàn)。

對(duì)于這些代碼，有一點(diǎn)很重要：這些代碼是自動(dòng)生成的。如果你在 GitHub 庫(kù)中搜索，你沒法找到它們，因?yàn)槟惚仨殞?shí)際 build PyTorch 才能看到它們。另外一點(diǎn)也很重要：你不需要真正深入理解這些代碼是在做什么，你應(yīng)該快速瀏覽它，知道它的功能。

我在上面用藍(lán)色標(biāo)注了最重要的部分：你可以看到這里使用了一個(gè) PythonArgParser 類來從 Python args 和 kwargs 取出 C++ 對(duì)象；然后我們調(diào)用一個(gè) dispatch_add 函數(shù)（紅色內(nèi)聯(lián)）；這會(huì)釋放全局解釋器鎖，然后調(diào)用在 C++ 張量自身上的一個(gè)普通的舊方法。在其回來的路上，我們將返回的 Tensor 重新包裝進(jìn) PyObject。

（這里幻燈片中有個(gè)錯(cuò)誤：我應(yīng)該講解變量調(diào)度代碼。我這里還沒有修復(fù)。某些神奇的事發(fā)生了，于是……）

當(dāng)我們?cè)?Tensor 類上調(diào)用 add 方法時(shí)，還沒有虛調(diào)度發(fā)生。相反，我有一個(gè)內(nèi)聯(lián)方法，其調(diào)用了一個(gè)內(nèi)聯(lián)方法，其會(huì)在「Type」對(duì)象上調(diào)用一個(gè)虛方法。這個(gè)方法是真正的虛方法（這就是我說 Type 只是一個(gè)讓你實(shí)現(xiàn)動(dòng)態(tài)調(diào)度的「小工具」的原因）。

在這個(gè)特定案例中，這個(gè)虛調(diào)用會(huì)調(diào)度到在一個(gè)名為 TypeDefault 的類上的 add 的實(shí)現(xiàn)。這剛好是因?yàn)槲覀冇幸粋€(gè)對(duì)所有設(shè)備類型（CPU 和 CUDA）都一樣的 add 的實(shí)現(xiàn)；如果我們剛好有不同的實(shí)現(xiàn)，我們可能最終會(huì)得到 CPUFloatType::add 這樣的結(jié)果。正是這種虛方法的實(shí)現(xiàn)能讓我們最終得到實(shí)際的核代碼。

也希望這張幻燈片很快過時(shí)；Roy Li 正在研究使用另一種機(jī)制替代 Type 調(diào)度，這能讓我們更好地在移動(dòng)端上支持 PyTorch。

值得再次強(qiáng)調(diào)，一直到我們到達(dá)核，所有這些代碼都是自動(dòng)生成的。

道路蜿蜒曲折，一旦你能基本上把握方向了，我建議你直接跳到核部分。

編寫核（kernel）

PyTorch 為有望編寫核的人提供了大量有用工具。在這一節(jié)我們會(huì)了解其中一些。但首先，編寫核需要什么？

我們一般將 PyTorch 中的核看作由以下部分組成：

首先有一些我們要寫的有關(guān)核的元數(shù)據(jù)，這能助力代碼生成并讓你獲取所有與 Python 的捆綁包，同時(shí)無需寫任何一行代碼。
一旦你到達(dá)了核，你就經(jīng)過了設(shè)備類型/布局調(diào)度。你首先需要寫的是錯(cuò)誤檢查，以確保輸入的張量有正確的維度。（錯(cuò)誤檢查真正很重要！不要吝惜它！）
接下來，我們一般必須分配我們將要寫入輸出的結(jié)果張量。
該到寫核的時(shí)候了。現(xiàn)在你應(yīng)該做第二次 dtype 調(diào)度，以跳至其所操作的每個(gè) dtype 特定的核。（你不應(yīng)該過早做這件事，因?yàn)槟菢拥脑捘憔蜁?huì)毫無用處地復(fù)制在任何情況下看起來都一樣的代碼。）
大多數(shù)高性能核都需要某種形式的并行化，這樣就能利用多 CPU 系統(tǒng)了。（CUDA 核是「隱式」并行化的，因?yàn)樗鼈兊木幊棠Ｐ蜆?gòu)建于大規(guī)模并行化之上。）
最后，你需要讀取數(shù)據(jù)并執(zhí)行你想做的計(jì)算！

在后面的幻燈片中，我將介紹 PyTorch 中能幫你實(shí)現(xiàn)這些步驟的工具。

要充分利用 PyTorch 的代碼生成能力，你需要為你的算子寫一個(gè)模式（schema）。這個(gè)模式能提供你的函數(shù)的 mypy 風(fēng)格類型，并控制是否為 Tensor 上的方法或函數(shù)生成捆綁包。你還可以告訴模式針對(duì)給定的設(shè)備-布局組合，應(yīng)該調(diào)用你的算子的哪種實(shí)現(xiàn)。

有關(guān)這種格式的更多信息，請(qǐng)參閱：https://github.com/pytorch/pytorch/blob/master/aten/src/ATen/native/README.md

你可能也需要為你在 derivatives.yaml 中的操作定義一個(gè)導(dǎo)數(shù)。

錯(cuò)誤檢查可以在低層 API 完成，也能通過高層 API 實(shí)現(xiàn)。低層 API 只是一個(gè)宏 TORCH_CHECK，其接收的是一個(gè)布爾值，然后還有任意數(shù)量的參數(shù)構(gòu)成錯(cuò)誤字符串（error string）以便得出結(jié)論看該布爾值是否為真。

這個(gè)宏有個(gè)很好的地方：你可以將字符串與非字符串?dāng)?shù)據(jù)混合起來；每一項(xiàng)都使用它們的 operator<< 實(shí)現(xiàn)進(jìn)行格式化，PyTorch 中大多數(shù)重要的數(shù)據(jù)類型都有 operator<< 實(shí)現(xiàn)。

高層 API 能讓你免于反復(fù)編寫重復(fù)的錯(cuò)誤消息。其工作方法是；你首先將每個(gè)張量包裝為 TensorArg，這包含有關(guān)張量來處的信息（比如其參數(shù)名稱）。然后它提供了一些預(yù)先裝好的用于檢查多種屬性的函數(shù)；比如 checkDim() 測(cè)試的是張量的維度是否是一個(gè)固定數(shù)值。如果不是，該函數(shù)就基于 TensorArg 元數(shù)據(jù)提供一個(gè)用戶友好的錯(cuò)誤消息。

在用 PyTorch 寫算子時(shí)，有一點(diǎn)很重要：你往往要注冊(cè)三個(gè)算子：abs_out（其操作的是一個(gè)預(yù)分配的輸出，其實(shí)現(xiàn)了 out= keyword 參數(shù)）、abs_（其操作的是 inplace）、abs（這只是一個(gè)算子的普通的舊功能版本）。

大部分時(shí)間，abs_out 是真正的主力，abs 和 abs_ 只是圍繞 abs_out 的薄弱 wrapper；但有時(shí)候也可為每個(gè)案例編寫專門的實(shí)現(xiàn)。

要執(zhí)行 dtype 調(diào)度，你應(yīng)該使用 AT_DISPATCH_ALL_TYPES 宏。這會(huì)獲取你想要進(jìn)行調(diào)度操作的張量的 dtype，并還會(huì)為可從該宏調(diào)度的每個(gè) dtype 指定一個(gè) lambda。通常而言，這個(gè) lambda 只是調(diào)用一個(gè)模板輔助函數(shù)。

這個(gè)宏不只是「執(zhí)行調(diào)度」，它也會(huì)決定你的核將支持的 dtype。這樣，這個(gè)宏實(shí)際上就有相當(dāng)多一些版本，這能讓你選取不同的 dtype 子集以生成特定結(jié)果。大多數(shù)時(shí)候，你只需要 AT_DISPATCH_ALL_TYPES，但也要關(guān)注你可能需要調(diào)度其它更多類型的情況。

在 CPU 上，你通常需要并行化你的代碼。過去，這通常是通過直接在你的代碼中添加 OpenMP pragma 來實(shí)現(xiàn)。

某些時(shí)候，你必須真正訪問數(shù)據(jù)。PyTorch 為此提供了相當(dāng)多一些選擇。

如果你只想獲取某個(gè)特定位置的值，你應(yīng)該使用 TensorAccessor。張量存取器就像是一個(gè)張量，但它將張量的維度和 dtype 硬編碼為了模板參數(shù)。當(dāng)你檢索一個(gè)存取器時(shí)，比如 x.accessor
();，我們會(huì)做一次運(yùn)行時(shí)間測(cè)試以確保張量確實(shí)是這種格式；但那之后，每次存取都不會(huì)被檢查。張量存取器能正確地處理步幅，因此你最好使用它們，而不是原始的指針訪問（不幸的是，很多傳統(tǒng)的核是這樣做的）。另外還有 PackedTensorAccessor，這特別適用于通過 CUDA launch 發(fā)送存取器，這樣你就能從你的 CUDA 核內(nèi)部獲取存取器。（一個(gè)值得一提的問題：TensorAccessor 默認(rèn)是 64 位索引，這比 CUDA 中的 32 位索引要慢得多！）
如果你在用很常規(guī)的元素存取編寫某種算子，比如逐點(diǎn)運(yùn)算，那么使用遠(yuǎn)遠(yuǎn)更高級(jí)的抽象要好得多，比如 TensorIterator。這個(gè)輔助類能為你自動(dòng)處理廣播和類型提升（type promotion），相當(dāng)好用。
要在 CPU 上獲得真正的速度，你可能需要使用向量化的 CPU 指令編寫你的核。我們也有用于這方面的輔助函數(shù)！Vec256 類表示一種標(biāo)量向量，并提供了一些能在它們上一次性執(zhí)行向量化運(yùn)算的方法。然后 binary_kernel_vec 等輔助函數(shù)能讓你輕松地運(yùn)行向量化運(yùn)算，然后結(jié)束那些沒法用普通的舊指令很好地轉(zhuǎn)換成向量指令的東西。這里的基礎(chǔ)設(shè)施還能在不同指令集下多次編譯你的核，然后在運(yùn)行時(shí)間測(cè)試你的 CPU 支持什么指令，再在這些情況中使用最佳的核。

PyTorch 中大量核都仍然是用傳統(tǒng)的 TH 風(fēng)格編寫的。（順便一提，TH 代表 TorcH。這是個(gè)很好的縮寫詞，但很不幸被污染了；如果你看到名稱中有 TH，可認(rèn)為它是傳統(tǒng)的。）傳統(tǒng) TH 風(fēng)格是什么意思呢？

它是以 C 風(fēng)格書寫的，沒有（或很少）使用 C++。
其 refcounted 是人工的（使用了對(duì) THTensor_free 的人工調(diào)用以降低你使用張量結(jié)束時(shí)的 refcounts）。
其位于 generic/ 目錄，這意味著我們實(shí)際上要編譯這個(gè)文件很多次，但要使用不同的 #define scalar_t

這種代碼相當(dāng)瘋狂，而且我們討厭回顧它，所以請(qǐng)不要添加它。如果你想寫代碼但對(duì)核編寫了解不多，你能做的一件有用的事情：將某些 TH 函數(shù)移植到 ATen。

工作流程效率

最后我想談?wù)勗?PyTorch 上的工作效率。如果 PyTorch 那龐大的 C++ 代碼庫(kù)是阻攔人們?yōu)?PyTorch 做貢獻(xiàn)的第一只攔路虎，那么你的工作流程的效率就是第二只。如果你想用 Python 習(xí)慣開發(fā) C++，那可能會(huì)很艱辛：重新編譯 PyTorch 需要大量時(shí)間，你也需要大量時(shí)間才能知道你的修改是否有效。

如何高效工作本身可能就值得做一場(chǎng)演講，但這頁(yè)幻燈片總結(jié)了一些我曾見過某些人抱怨的最常見的反模式：「開發(fā) PyTorch 很困難。」

如果你編輯一個(gè) header，尤其是被許多源文件包含的 header（尤其當(dāng)被 CUDA 文件包含時(shí)），可以預(yù)見會(huì)有很長(zhǎng)的重新 build 時(shí)間。盡量只編輯 cpp 文件，編輯 header 要審慎！
我們的 CI 是一種非常好的零設(shè)置的測(cè)試修改是否有效的方法。但在獲得返回信號(hào)之前你可能需要等上一兩個(gè)小時(shí)。如果你在進(jìn)行一種將需要大量實(shí)驗(yàn)的改變，那就花點(diǎn)時(shí)間設(shè)置一個(gè)本地開發(fā)環(huán)境。類似地，如果你在特定的 CI 配置上遇到了困難的 debug 問題，就在本地設(shè)置它。你可以將 Docker 鏡像下載到本地并運(yùn)行：https://github.com/pytorch/ossci-job-dsl
貢獻(xiàn)指南解釋了如何設(shè)置 ccache：https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md#use-ccache ；強(qiáng)烈建議這個(gè)，因?yàn)檫@可以讓你在編輯 header 時(shí)幸運(yùn)地避免大量重新編譯。當(dāng)我們?cè)诓粦?yīng)該重新編譯文件時(shí)重新編譯時(shí)，這也能幫你覆蓋我們的 build 系統(tǒng)的漏洞。
最后，我們會(huì)有大量 C++ 代碼。如果你是在一臺(tái)有 CPU 和 RAM 的強(qiáng)大服務(wù)器上 build，那么會(huì)有很愉快的體驗(yàn)。特別要說明，我不建議在筆記本電腦上執(zhí)行 CUDA build。build CUDA 非常非常慢，而筆記本電腦往往性能不足，不足以快速完成。

參與進(jìn)來！

這就是我們旋風(fēng)一般的 PyTorch 內(nèi)核之旅了！其中省略了很多很多東西；但希望這里的描述和解釋至少能幫你消化其代碼庫(kù)中相當(dāng)大一部分。

接下來該做什么？你能做出怎樣的貢獻(xiàn)？我們的問題跟蹤器是個(gè)開始的好地方：https://github.com/pytorch/pytorch/issues。

從今年開始，我們一直在分類鑒別問題；標(biāo)注有「triaged」的問題表示至少有一個(gè) PyTorch 開發(fā)者研究過它并對(duì)該問題進(jìn)行了初步評(píng)估。你可以使用這些標(biāo)簽找到我們認(rèn)為哪些問題是高優(yōu)先級(jí)的或查看針對(duì)特定模塊（如 autograd）的問題，也能找到我們認(rèn)為是小問題的問題。（警告：我們有時(shí)是錯(cuò)的！）

即使你并不想馬上就開始寫代碼，也仍有很多其它有用的工作值得去做，比如改善文檔（我很喜歡合并文檔 PR，它們都很贊）、幫助我們重現(xiàn)來自其他用戶的 bug 報(bào)告以及幫助我們討論問題跟蹤器上的 RFC。沒有我們的開源貢獻(xiàn)者，PyTorch 不會(huì)走到今天；我們希望你也能加入我們！

原文地址：http://blog.ezyang.com/2019/05/pytorch-internals/

—完—

全面解讀PyTorch內(nèi)部機(jī)制