国产精品久久久九九性,国产综合久久久777777,国产AV综合播放,91香蕉视频在线,东京热精品,欧美成人性爱在线,日本三级网站,国产精品久久久久久中文字

點(diǎn)擊上方“機(jī)器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”，關(guān)注星標(biāo)
獲取有趣、好玩的前沿干貨！

https://www.zhihu.com/question/330766768

編輯：機(jī)器學(xué)習(xí)算法與知識圖譜

聲明：僅做學(xué)術(shù)分享，侵刪

作者：時間旅客

https://www.zhihu.com/question/41631631/answer/1129785528

不管什么模型，先在一個較小的訓(xùn)練集上train和test，看看它能不能過擬合。如果不能過擬合，可能是學(xué)習(xí)率太大，或者代碼寫錯了。先調(diào)小學(xué)習(xí)率試一下，如果還不行就去檢查代碼，先看dataloader輸出的數(shù)據(jù)對不對，再看模型每一步的size是否符合自己期待。
看train/eval的loss曲線，正常的情況應(yīng)該是train loss呈log狀一直下降最后趨于穩(wěn)定，eval loss開始時一直下降到某一個epoch之后開始趨于穩(wěn)定或開始上升，這時候可以用early stopping保存eval loss最低的那個模型。如果loss曲線非常不正常，很有可能是數(shù)據(jù)處理出了問題，比如label對應(yīng)錯了，回去檢查代碼。
不要一開始就用大數(shù)據(jù)集，先在一個大概2w訓(xùn)練集，2k測試集的小數(shù)據(jù)集上調(diào)參。
盡量不要自己從頭搭架子（新手和半新手）。找一個已經(jīng)明確沒有bug能跑通的其它任務(wù)的架子，在它的基礎(chǔ)上修改。否則debug過程非常艱難，因?yàn)橛袝r候是版本迭代產(chǎn)生的問題，修改起來很麻煩。
優(yōu)化器優(yōu)先用adam，學(xué)習(xí)率設(shè)1e-3或1e-4，再試Radam（LiyuanLucasLiu/RAdam）。不推薦sgdm，因?yàn)楹苈?/span>
lrscheduler用torch.optim.lr_scheduler.CosineAnnealingLR，T_max設(shè)32或64，幾個任務(wù)上試效果都不錯。（用這個lr_scheduler加上adam系的optimizer基本就不用怎么調(diào)學(xué)習(xí)率了）
有一些任務(wù)（尤其是有RNN的）要做梯度裁剪，torch.nn.utils.clip_grad_norm。
參數(shù)初始化，lstm的h用orthogonal，其它用he或xavier。
激活函數(shù)用relu一般就夠了，也可以試試leaky relu。
batchnorm和dropout可以試，放的位置很重要。優(yōu)先嘗試放在最后輸出層之前，以及embedding層之后。RNN可以試layer_norm。有些任務(wù)上加了這些層可能會有負(fù)作用。
metric learning中先試標(biāo)label的分類方法。然后可以用triplet loss，margin這個參數(shù)的設(shè)置很重要。
batchsize設(shè)置小一點(diǎn)通常會有一些提升，某些任務(wù)batchsize設(shè)成1有奇效。
embedding層的embedsize可以小一些（64 or 128），之后LSTM或CNN的hiddensize要稍微大一些（256 or 512）。（ALBERT論文里面大概也是這個意思）
模型方面，可以先用2或3層LSTM試一下，通常效果都不錯。
weight decay可以試一下，我一般用1e-4。
有CNN的地方就用shortcut。CNN層數(shù)加到某一個值之后對結(jié)果影響就不大了，這個值作為參數(shù)可以調(diào)一下。
GRU和LSTM在大部分任務(wù)上效果差不多。
看論文時候不要全信，能復(fù)現(xiàn)的盡量復(fù)現(xiàn)一下，許多論文都會做低baseline，但實(shí)際使用時很多baseline效果很不錯。
對于大多數(shù)任務(wù)，數(shù)據(jù)比模型重要。面對新任務(wù)時先分析數(shù)據(jù)，再根據(jù)數(shù)據(jù)設(shè)計(jì)模型，并決定各個參數(shù)。例如nlp有些任務(wù)中的padding長度，通常需要達(dá)到數(shù)據(jù)集的90%以上，可用pandas的describe函數(shù)進(jìn)行分析。

想到其它的繼續(xù)加。

覺得對你有用的話就點(diǎn)個贊吧~ 有具體問題的同學(xué)可以在評論區(qū)留言（或私信我），有能力的我都會回答。也可以翻翻我對其它問題的回答，可能也有一點(diǎn)幫助。

作者：蕭瑟

https://www.zhihu.com/question/41631631/answer/94816420

訓(xùn)練技巧對深度學(xué)習(xí)來說是非常重要的，作為一門實(shí)驗(yàn)性質(zhì)很強(qiáng)的科學(xué)，同樣的網(wǎng)絡(luò)結(jié)構(gòu)使用不同的訓(xùn)練方法訓(xùn)練，結(jié)果可能會有很大的差異。這里我總結(jié)了近一年來的煉丹心得，分享給大家，也歡迎大家補(bǔ)充指正。

參數(shù)初始化。

下面幾種方式,隨便選一個,結(jié)果基本都差不多。但是一定要做。否則可能會減慢收斂速度，影響收斂結(jié)果，甚至造成Nan等一系列問題。

下面的n_in為網(wǎng)絡(luò)的輸入大小，n_out為網(wǎng)絡(luò)的輸出大小，n為n_in或(n_in+n_out)*0.5

Xavier初始法論文：http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf

He初始化論文：https://arxiv.org/abs/1502.01852

uniform均勻分布初始化：
w = np.random.uniform(low=-scale, high=scale, size=[n_in,n_out])

Xavier初始法，適用于普通激活函數(shù)(tanh,sigmoid)：scale = np.sqrt(3/n)
He初始化，適用于ReLU：scale = np.sqrt(6/n)

normal高斯分布初始化：
w = np.random.randn(n_in,n_out) * stdev # stdev為高斯分布的標(biāo)準(zhǔn)差，均值設(shè)為0

Xavier初始法，適用于普通激活函數(shù) (tanh,sigmoid)：stdev = np.sqrt(n)
He初始化，適用于ReLU：stdev = np.sqrt(2/n)

svd初始化：對RNN有比較好的效果。參考論文：https://arxiv.org/abs/1312.6120

數(shù)據(jù)預(yù)處理方式

zero-center ,這個挺常用的.
X -= np.mean(X, axis = 0) # zero-center
X /= np.std(X, axis = 0) # normalize
PCA whitening,這個用的比較少.

訓(xùn)練技巧

要做梯度歸一化,即算出來的梯度除以minibatch size
clip c(梯度裁剪): 限制最大梯度,其實(shí)是value = sqrt(w1^2+w2^2….),如果value超過了閾值,就算一個衰減系系數(shù),讓value的值等于閾值: 5,10,15
dropout對小數(shù)據(jù)防止過擬合有很好的效果,值一般設(shè)為0.5,小數(shù)據(jù)上dropout+sgd在我的大部分實(shí)驗(yàn)中，效果提升都非常明顯.因此可能的話，建議一定要嘗試一下。dropout的位置比較有講究, 對于RNN,建議放到輸入->RNN與RNN->輸出的位置.關(guān)于RNN如何用dropout,可以參考這篇論文:http://arxiv.org/abs/1409.2329
adam,adadelta等,在小數(shù)據(jù)上,我這里實(shí)驗(yàn)的效果不如sgd, sgd收斂速度會慢一些，但是最終收斂后的結(jié)果，一般都比較好。如果使用sgd的話,可以選擇從1.0或者0.1的學(xué)習(xí)率開始,隔一段時間,在驗(yàn)證集上檢查一下,如果cost沒有下降,就對學(xué)習(xí)率減半. 我看過很多論文都這么搞,我自己實(shí)驗(yàn)的結(jié)果也很好. 當(dāng)然,也可以先用ada系列先跑,最后快收斂的時候,更換成sgd繼續(xù)訓(xùn)練.同樣也會有提升.據(jù)說adadelta一般在分類問題上效果比較好，adam在生成問題上效果比較好。
除了gate之類的地方,需要把輸出限制成0-1之外,盡量不要用sigmoid,可以用tanh或者relu之類的激活函數(shù).1. sigmoid函數(shù)在-4到4的區(qū)間里，才有較大的梯度。之外的區(qū)間，梯度接近0，很容易造成梯度消失問題。2. 輸入0均值，sigmoid函數(shù)的輸出不是0均值的。
rnn的dim和embdding size,一般從128上下開始調(diào)整. batch size,一般從128左右開始調(diào)整.batch size合適最重要,并不是越大越好.
word2vec初始化,在小數(shù)據(jù)上,不僅可以有效提高收斂速度,也可以可以提高結(jié)果.
盡量對數(shù)據(jù)做shuffle
LSTM 的forget gate的bias,用1.0或者更大的值做初始化,可以取得更好的結(jié)果,來自這篇論文:http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf, 我這里實(shí)驗(yàn)設(shè)成1.0,可以提高收斂速度.實(shí)際使用中,不同的任務(wù),可能需要嘗試不同的值.
Batch Normalization據(jù)說可以提升效果，不過我沒有嘗試過，建議作為最后提升模型的手段，參考論文：Accelerating Deep Network Training by Reducing Internal Covariate Shift
如果你的模型包含全連接層（MLP），并且輸入和輸出大小一樣，可以考慮將MLP替換成Highway Network,我嘗試對結(jié)果有一點(diǎn)提升，建議作為最后提升模型的手段，原理很簡單，就是給輸出加了一個gate來控制信息的流動，詳細(xì)介紹請參考論文: http://arxiv.org/abs/1505.00387
來自@張馨宇的技巧：一輪加正則，一輪不加正則，反復(fù)進(jìn)行。

Ensemble

Ensemble是論文刷結(jié)果的終極核武器,深度學(xué)習(xí)中一般有以下幾種方式

同樣的參數(shù),不同的初始化方式
不同的參數(shù),通過cross-validation,選取最好的幾組
同樣的參數(shù),模型訓(xùn)練的不同階段，即不同迭代次數(shù)的模型。
不同的模型,進(jìn)行線性融合. 例如RNN和傳統(tǒng)模型.

作者：Towser

https://www.zhihu.com/question/41631631/answer/862075836

總結(jié)一下我遇到的小朋友常犯的錯：

1、一上來就自己動手寫模型。建議首先用成熟的開源項(xiàng)目及其默認(rèn)配置（例如 Gluon 對經(jīng)典模型的各種復(fù)現(xiàn)、各個著名模型作者自己放出來的代碼倉庫）在自己的數(shù)據(jù)集上跑一遍，在等程序運(yùn)行結(jié)束的時間里仔細(xì)研究一下代碼里的各種細(xì)節(jié)，最后再自己寫或者改代碼。

2、訓(xùn) RNN 不加 gradient clipping，導(dǎo)致訓(xùn)練一段時間以后 loss 突然變成 Nan。

3、tying input & output embedding（就是詞向量層和輸出 softmax 前的矩陣共享參數(shù)，在語言模型或機(jī)器翻譯中常用）時學(xué)習(xí)率需要設(shè)置得非常小，不然容易 Nan。

4、在數(shù)據(jù)集很大的情況下，一上來就跑全量數(shù)據(jù)。建議先用 1/100、1/10 的數(shù)據(jù)跑一跑，對模型性能和訓(xùn)練時間有個底，外推一下全量數(shù)據(jù)到底需要跑多久。在沒有足夠的信心前不做大規(guī)模實(shí)驗(yàn)。

5、只喜歡漂亮的模型結(jié)構(gòu)，瞧不起調(diào)參數(shù)的論文/實(shí)驗(yàn)報告，看論文時經(jīng)常不看超參數(shù)設(shè)置等細(xì)節(jié)。舉個例子，現(xiàn)在還有相當(dāng)多的人不知道 BERT 的激活函數(shù)是 GELU 而不是 transformer 原論文中的 ReLU（雖然我覺得這一點(diǎn)很無厘頭）。在自己沒有太多資源實(shí)驗(yàn)的情況下，實(shí)驗(yàn)報告類文章簡直是業(yè)界良心好不好！

NLP 領(lǐng)域主要推薦以下幾篇：

Regularizing and Optimizing LSTM Language Models（LSTM 的訓(xùn)練技巧）

Massive Exploration of Neural Machine Translation Architectures（NMT 里各個超參的影響）

Training Tips for the Transformer Model（訓(xùn)練 Transformer 時會發(fā)生的各種現(xiàn)象）

RoBERTa: A Robustly Optimized BERT Pretraining Approach（BERT 預(yù)訓(xùn)練技巧，雖然跟大部分人沒啥關(guān)系）

CV 我不算太熟，不過也可以勉強(qiáng)推薦幾篇：

Training ImageNet in 1 Hour（大批量訓(xùn)練技巧）

Bag of Tricks for Image Classification with Convolutional Neural Networks（各種訓(xùn)練技巧集大成）

Bag of Freebies for Training Object Detection Neural Networks（同上）

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks（當(dāng)前對參數(shù)利用最有效的 CNN，類似地還有一篇 EfficientDet）

6、初始學(xué)習(xí)率：

有時受 batch size、sequence length 各種因素的影響，loss 很大（比如說好幾萬），對于這種數(shù)字人是沒有數(shù)感的，建議首先計(jì)算一下 per token loss（如果是多任務(wù)，可以每個任務(wù)單獨(dú)算；類似地，某些 CV 任務(wù)可以計(jì)算 per pixel loss），心里有點(diǎn)感覺。脫離損失函數(shù)的形式談學(xué)習(xí)率沒有意義（例如單是對 batch size 求和或者取平均這個差異就會使梯度差成百上千倍）。

在確定初始學(xué)習(xí)率的時候，從一個很小的值（例如 1e-7）開始，然后每一步指數(shù)增大學(xué)習(xí)率（例如擴(kuò)大1.05 倍）進(jìn)行訓(xùn)練。訓(xùn)練幾百步應(yīng)該能觀察到損失函數(shù)隨訓(xùn)練步數(shù)呈對勾形，選擇損失下降最快那一段的學(xué)習(xí)率即可。

7、Adam 可以解決一堆奇奇怪怪的問題（有時 loss 降不下去，換 Adam 瞬間就好了），也可以帶來一堆奇奇怪怪的問題（比如單詞詞頻差異很大，當(dāng)前 batch 沒有的單詞的詞向量也被更新；再比如Adam和L2正則結(jié)合產(chǎn)生的復(fù)雜效果）。用的時候要膽大心細(xì)，萬一遇到問題找各種魔改 Adam（比如 MaskedAdam, AdamW 啥的）搶救。

8、subword 總是會很穩(wěn)定地漲點(diǎn)，只管用就對了。

9、GPU 上報錯時盡量放在 CPU 上重跑，錯誤信息更友好。例如 GPU 報 "ERROR:tensorflow:Model diverged with loss = NaN" 其實(shí)很有可能是輸入 ID 超出了 softmax 詞表的范圍。

10、要有耐心！

這一條放在最后，是因?yàn)楹芏嗳瞬话阉?dāng)一回事兒?？赡苁怯X得這一條不需要寫代碼所以不重要？我見過太多人因?yàn)檫@條浪費(fèi)時間了，所以專門強(qiáng)調(diào)一下。

有些指標(biāo)是有滯后性的，需要等訓(xùn)練一段時間才開始動（例如 BN 訓(xùn)練和推斷行為不一致，可能訓(xùn)練的準(zhǔn)確率已經(jīng)很高了，但測試準(zhǔn)確率很低，這是因?yàn)?BN 的統(tǒng)計(jì)量還不準(zhǔn)，再等等就好了）。很多人訓(xùn)練幾步看沒什么效果就把程序停掉開始 debug 了，但其實(shí)代碼毫無問題。如此反復(fù)好幾天甚至一兩周都在原地踏步，其實(shí)需要做的僅僅是讓程序自個兒安安靜靜地跑上幾個小時或者一天……

作者：京東白條

https://www.zhihu.com/question/41631631/answer/776852832

相信很多剛開始接觸深度學(xué)習(xí)朋友，會感覺深度學(xué)習(xí)調(diào)參就像玄學(xué)一般，有時候參數(shù)調(diào)的好，模型會快速收斂，參數(shù)沒調(diào)好，可能迭代幾次loss值就直接變成Nan了。

記得剛開始研究深度學(xué)習(xí)時，做過兩個小例子。一個是用tensorflow構(gòu)建了一個十分簡單的只有一個輸入層和一個softmax輸出層的Mnist手寫識別網(wǎng)絡(luò)，第一次我對權(quán)重矩陣W和偏置b采用的是正態(tài)分布初始化，一共迭代了20個epoch，當(dāng)?shù)甑谝粋€epoch時，預(yù)測的準(zhǔn)確度只有10%左右（和隨機(jī)猜一樣，Mnist是一個十分類問題），當(dāng)?shù)甓畟€epoch，精度也僅僅達(dá)到了60%的樣子。然后我僅僅是將權(quán)重矩陣W初始化方法改成了全為0的初始化，其他的參數(shù)均保持不變，結(jié)果在訓(xùn)練完第一個epoch后預(yù)測精度就達(dá)到了85%以上，最終20個epoch后精度達(dá)到92%。另一個例子是回歸問題的預(yù)測，當(dāng)時采用的SGD優(yōu)化器，一開始學(xué)習(xí)率設(shè)定的0.1，模型可以正常訓(xùn)練，只是訓(xùn)練速度有些慢，我試著將學(xué)習(xí)率調(diào)整到0.3，希望可以加速訓(xùn)練速度，結(jié)果沒迭代幾輪loss就變成Nan了。于是從那時起我就深刻的感受到參數(shù)調(diào)節(jié)在深度學(xué)習(xí)模型訓(xùn)練中的重要意義。

其實(shí)上述問題產(chǎn)生的原因也很好理解，對于參數(shù)初始化，因?yàn)槲覀儗W(xué)習(xí)的本來就是權(quán)重W與偏置b，如果初始化足夠好，直接就初始化到最優(yōu)解，那都不用進(jìn)行訓(xùn)練了。良好的初始化，可以讓參數(shù)更接近最優(yōu)解，這可以大大提高收斂速度，也可以防止落入局部極小。對于學(xué)習(xí)率，學(xué)習(xí)率如果取太大，會使模型訓(xùn)練非常震蕩，可以想象我們最小化一個二次拋物線，選取一個很大的學(xué)習(xí)率，那么迭代點(diǎn)會一直在拋物線的兩邊震蕩，收斂不到最小值，甚至還有螺旋上升迭代點(diǎn)的可能。

下面對深度學(xué)習(xí)調(diào)參技巧談些心得，雖說不能讓你通過以下閱讀成為一個調(diào)參高手，但最起碼可以提供一些調(diào)參的思路。

1. 激活函數(shù)選擇：

常用的激活函數(shù)有relu、leaky-relu、sigmoid、tanh等。對于輸出層，多分類任務(wù)選用softmax輸出，二分類任務(wù)選用sigmoid輸出，回歸任務(wù)選用線性輸出。而對于中間隱層，則優(yōu)先選擇relu激活函數(shù)（relu激活函數(shù)可以有效的解決sigmoid和tanh出現(xiàn)的梯度彌散問題，多次實(shí)驗(yàn)表明它會比其他激活函數(shù)以更快的速度收斂）。另外，構(gòu)建序列神經(jīng)網(wǎng)絡(luò)（RNN）時要優(yōu)先選用tanh激活函數(shù)。

2、學(xué)習(xí)率設(shè)定：

一般學(xué)習(xí)率從0.1或0.01開始嘗試。學(xué)習(xí)率設(shè)置太大會導(dǎo)致訓(xùn)練十分不穩(wěn)定，甚至出現(xiàn)Nan，設(shè)置太小會導(dǎo)致?lián)p失下降太慢。學(xué)習(xí)率一般要隨著訓(xùn)練進(jìn)行衰減。衰減系數(shù)設(shè)0.1，0.3，0.5均可，衰減時機(jī)，可以是驗(yàn)證集準(zhǔn)確率不再上升時，或固定訓(xùn)練多少個周期以后自動進(jìn)行衰減。

3、防止過擬合：

一般常用的防止過擬合方法有使用L1正則項(xiàng)、L2正則項(xiàng)、dropout、提前終止、數(shù)據(jù)集擴(kuò)充等。如果模型在訓(xùn)練集上表現(xiàn)比較好但在測試集上表現(xiàn)欠佳可以選擇增大L1或L2正則的懲罰力度（L2正則經(jīng)驗(yàn)上首選1.0，超過10很少見），或增大dropout的隨機(jī)失活概率（經(jīng)驗(yàn)首選0.5）；或者當(dāng)隨著訓(xùn)練的持續(xù)在測試集上不增反降時，使用提前終止訓(xùn)練的方法。當(dāng)然最有效的還是增大訓(xùn)練集的規(guī)模，實(shí)在難以獲得新數(shù)據(jù)也可以使用數(shù)據(jù)集增強(qiáng)的方法，比如CV任務(wù)可以對數(shù)據(jù)集進(jìn)行裁剪、翻轉(zhuǎn)、平移等方法進(jìn)行數(shù)據(jù)集增強(qiáng)，這種方法往往都會提高最后模型的測試精度。

4、優(yōu)化器選擇：

如果數(shù)據(jù)是稀疏的，就用自適應(yīng)方法，即 Adagrad, Adadelta, RMSprop, Adam。整體來講，Adam 是最好的選擇。SGD 雖然能達(dá)到極小值，但是比其它算法用的時間長，而且可能會被困在鞍點(diǎn)。如果需要更快的收斂，或者是訓(xùn)練更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)，需要用一種自適應(yīng)的算法。

5、殘差塊與BN層：

如果你希望訓(xùn)練一個更深更復(fù)雜的網(wǎng)絡(luò)，那么殘差塊絕對是一個重要的組件，它可以讓你的網(wǎng)絡(luò)訓(xùn)練的更深。

BN層具有加速訓(xùn)練速度，有效防止梯度消失與梯度爆炸，具有防止過擬合的效果，所以構(gòu)建網(wǎng)絡(luò)時最好要加上這個組件。

6.自動調(diào)參方法：

（1）Grid Search：網(wǎng)格搜索，在所有候選的參數(shù)選擇中，通過循環(huán)遍歷，嘗試每一種可能性，表現(xiàn)最好的參數(shù)就是最終的結(jié)果。其原理就像是在數(shù)組里找最大值。缺點(diǎn)是太費(fèi)時間了，特別像神經(jīng)網(wǎng)絡(luò)，一般嘗試不了太多的參數(shù)組合。

（2）Random Search：經(jīng)驗(yàn)上，Random Search比Gird Search更有效。實(shí)際操作的時候，一般也是先用Gird Search的方法，得到所有候選參數(shù)，然后每次從中隨機(jī)選擇進(jìn)行訓(xùn)練。另外Random Search往往會和由粗到細(xì)的調(diào)參策略結(jié)合使用，即在效果比較好的參數(shù)附近進(jìn)行更加精細(xì)的搜索。

（3）Bayesian Optimization：貝葉斯優(yōu)化，考慮到了不同參數(shù)對應(yīng)的實(shí)驗(yàn)結(jié)果值，因此更節(jié)省時間，貝葉斯調(diào)參比Grid Search迭代次數(shù)少，速度快；而且其針對非凸問題依然穩(wěn)健。

7.參數(shù)隨機(jī)初始化與數(shù)據(jù)預(yù)處理：

參數(shù)初始化很重要，它決定了模型的訓(xùn)練速度與是否可以躲開局部極小。relu激活函數(shù)初始化推薦使用He normal，tanh初始化推薦使用Glorot normal，其中Glorot normal也稱作Xavier normal初始化；數(shù)據(jù)預(yù)處理方法一般也就采用數(shù)據(jù)歸一化即可。

猜您喜歡：

等你著陸！【GAN生成對抗網(wǎng)絡(luò)】知識星球！

CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總

CVPR 2021 | 圖像轉(zhuǎn)換今如何？幾篇GAN論文

【CVPR 2021】通過GAN提升人臉識別的遺留難題

CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總

經(jīng)典GAN不得不讀：StyleGAN

超100篇！CVPR 2020最全GAN論文梳理匯總！

附下載 | 《Python進(jìn)階》中文版

附下載 | 經(jīng)典《Think Python》中文版

附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版