一文讀懂深度學(xué)習(xí)中的矩陣微積分
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達
本文轉(zhuǎn)自:視學(xué)算法
想要真正了解深度神經(jīng)網(wǎng)絡(luò)是如何訓(xùn)練的,免不了從矩陣微積分說起。
雖然網(wǎng)絡(luò)上已經(jīng)有不少關(guān)于多元微積分和線性代數(shù)的在線資料,但它們通常都被視作兩門獨立的課程,資料相對孤立,也相對晦澀。
不過,先別打退堂鼓,來自舊金山大學(xué)的Terence Parr教授說:矩陣微積分真的沒有那么難。
這位ANTLR之父和fast.ai創(chuàng)始人Jeremy Howard一起推出了一篇免費教程,旨在幫你快速入門深度學(xué)習(xí)中的矩陣微積分。簡明,易懂。
DeepMind研究科學(xué)家Andrew Trask評價說:
如果你想跳過不相干的內(nèi)容,一文看盡深度學(xué)習(xí)中所需的數(shù)學(xué)知識,那么就是這份資源沒錯了。

只需一點關(guān)于微積分和神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,就能單刀直入,開始以下的學(xué)習(xí)啦。
先來看一眼這篇教程都涵蓋了哪些內(nèi)容:
基本概念
矩陣微積分
神經(jīng)元激活的梯度
神經(jīng)網(wǎng)絡(luò)損失函數(shù)的梯度

文章開篇,先介紹了一下人工神經(jīng)元。
神經(jīng)網(wǎng)絡(luò)中單個計算單元的激活函數(shù),通常使用權(quán)重向量w與輸入向量x的點積來計算。
神經(jīng)網(wǎng)絡(luò)由許多這樣的單位組成。它們被組織成稱為層的神經(jīng)元集合。上一層單元的激活成為下一層單元的輸入,最后一層中一個或多個單元的激活稱為網(wǎng)絡(luò)輸出。
訓(xùn)練神經(jīng)元意味著對權(quán)重w和偏差b的選擇。我們的目標(biāo)是逐步調(diào)整w和b,使總損失函數(shù)在所有輸入x上都保持較小。

導(dǎo)數(shù)規(guī)則、向量計算、偏導(dǎo)數(shù)……復(fù)習(xí)完需要掌握的先導(dǎo)知識,文章開始進入重要規(guī)則的推導(dǎo),這些規(guī)則涉及矢量偏導(dǎo)數(shù)的計算,是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基礎(chǔ)。
比如在矩陣微積分這一節(jié)中,涵蓋:
雅可比式(Jacobian)的推廣
向量element-wise二元算子的導(dǎo)數(shù)
涉及標(biāo)量展開的導(dǎo)數(shù)
向量和降維
鏈?zhǔn)椒▌t

每一小節(jié)中,都有簡潔明了的示例,由淺入深,層層遞進。
如果你在學(xué)習(xí)的過程中遇到不理解的地方,不要著急,耐心返回上一節(jié)閱讀,重新演算一下文中的示例,或許就能理順?biāo)悸贰?/p>
如果實在是卡住了無法推進,你還可以在fast.ai論壇(鏈接見文末)的“Theory”分類下提問,向Parr和Howard本人求解答。
而在文章的末尾,作者附上了所有數(shù)學(xué)符號的對照表。

以及重點概念的詳細(xì)補充信息。

值得注意的是,Parr和Howard也強調(diào)了,與其他學(xué)術(shù)方法不同,他們強烈建議先學(xué)會如何訓(xùn)練和使用神經(jīng)網(wǎng)絡(luò),然后再深入了解背后的基礎(chǔ)數(shù)學(xué)。因為有了實踐經(jīng)驗,數(shù)學(xué)會變得剛?cè)菀桌斫?/strong>。
網(wǎng)頁版:
https://explained.ai/matrix-calculus/index.html
PDF:
https://arxiv.org/abs/1802.01528
在我愛計算機視覺公眾號后臺回復(fù)“矩陣微積分”,即可收到PDF下載地址。
fast.ai論壇:
http://forums.fast.ai/
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

