<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          調(diào)參經(jīng)驗(yàn): 關(guān)于deep learning(rnn、cnn)

          共 8852字,需瀏覽 18分鐘

           ·

          2021-09-18 02:42

          點(diǎn)擊上方機(jī)器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)

          獲取有趣、好玩的前沿干貨!

          https://www.zhihu.com/question/330766768
          編輯:機(jī)器學(xué)習(xí)算法與知識圖譜
          聲明:僅做學(xué)術(shù)分享,侵刪

          作者:時間旅客
          https://www.zhihu.com/question/41631631/answer/1129785528


          1. 不管什么模型,先在一個較小的訓(xùn)練集上train和test,看看它能不能過擬合。如果不能過擬合,可能是學(xué)習(xí)率太大,或者代碼寫錯了。先調(diào)小學(xué)習(xí)率試一下,如果還不行就去檢查代碼,先看dataloader輸出的數(shù)據(jù)對不對,再看模型每一步的size是否符合自己期待。



          2. 看train/eval的loss曲線,正常的情況應(yīng)該是train loss呈log狀一直下降最后趨于穩(wěn)定,eval loss開始時一直下降到某一個epoch之后開始趨于穩(wěn)定或開始上升,這時候可以用early stopping保存eval loss最低的那個模型。如果loss曲線非常不正常,很有可能是數(shù)據(jù)處理出了問題,比如label對應(yīng)錯了,回去檢查代碼。

          3. 不要一開始就用大數(shù)據(jù)集,先在一個大概2w訓(xùn)練集,2k測試集的小數(shù)據(jù)集上調(diào)參。


          4. 盡量不要自己從頭搭架子(新手和半新手)。找一個已經(jīng)明確沒有bug能跑通的其它任務(wù)的架子,在它的基礎(chǔ)上修改。否則debug過程非常艱難,因?yàn)橛袝r候是版本迭代產(chǎn)生的問題,修改起來很麻煩。

          5. 優(yōu)化器優(yōu)先用adam,學(xué)習(xí)率設(shè)1e-3或1e-4,再試Radam(LiyuanLucasLiu/RAdam)。不推薦sgdm,因?yàn)楹苈?/span>


          6. lrscheduler用torch.optim.lr_scheduler.CosineAnnealingLR,T_max設(shè)32或64,幾個任務(wù)上試效果都不錯。(用這個lr_scheduler加上adam系的optimizer基本就不用怎么調(diào)學(xué)習(xí)率了)

          7. 有一些任務(wù)(尤其是有RNN的)要做梯度裁剪,torch.nn.utils.clip_grad_norm。

          8. 參數(shù)初始化,lstm的h用orthogonal,其它用he或xavier。



          9. 激活函數(shù)用relu一般就夠了,也可以試試leaky relu。



          10. batchnorm和dropout可以試,放的位置很重要。優(yōu)先嘗試放在最后輸出層之前,以及embedding層之后。RNN可以試layer_norm。有些任務(wù)上加了這些層可能會有負(fù)作用。


          11. metric learning中先試標(biāo)label的分類方法。然后可以用triplet loss,margin這個參數(shù)的設(shè)置很重要。


          12. batchsize設(shè)置小一點(diǎn)通常會有一些提升,某些任務(wù)batchsize設(shè)成1有奇效。


          13. embedding層的embedsize可以小一些(64 or 128),之后LSTM或CNN的hiddensize要稍微大一些(256 or 512)。(ALBERT論文里面大概也是這個意思)


          14. 模型方面,可以先用2或3層LSTM試一下,通常效果都不錯。


          15. weight decay可以試一下,我一般用1e-4。


          16. 有CNN的地方就用shortcut。CNN層數(shù)加到某一個值之后對結(jié)果影響就不大了,這個值作為參數(shù)可以調(diào)一下。


          17. GRU和LSTM在大部分任務(wù)上效果差不多。


          18. 看論文時候不要全信,能復(fù)現(xiàn)的盡量復(fù)現(xiàn)一下,許多論文都會做低baseline,但實(shí)際使用時很多baseline效果很不錯。


          19. 對于大多數(shù)任務(wù),數(shù)據(jù)比模型重要。面對新任務(wù)時先分析數(shù)據(jù),再根據(jù)數(shù)據(jù)設(shè)計(jì)模型,并決定各個參數(shù)。例如nlp有些任務(wù)中的padding長度,通常需要達(dá)到數(shù)據(jù)集的90%以上,可用pandas的describe函數(shù)進(jìn)行分析。

          想到其它的繼續(xù)加。


          覺得對你有用的話就點(diǎn)個贊吧~ 有具體問題的同學(xué)可以在評論區(qū)留言(或私信我),有能力的我都會回答。也可以翻翻我對其它問題的回答,可能也有一點(diǎn)幫助。


          作者:蕭瑟

          https://www.zhihu.com/question/41631631/answer/94816420


          訓(xùn)練技巧對深度學(xué)習(xí)來說是非常重要的,作為一門實(shí)驗(yàn)性質(zhì)很強(qiáng)的科學(xué),同樣的網(wǎng)絡(luò)結(jié)構(gòu)使用不同的訓(xùn)練方法訓(xùn)練,結(jié)果可能會有很大的差異。這里我總結(jié)了近一年來的煉丹心得,分享給大家,也歡迎大家補(bǔ)充指正。


          參數(shù)初始化。

          下面幾種方式,隨便選一個,結(jié)果基本都差不多。但是一定要做。否則可能會減慢收斂速度,影響收斂結(jié)果,甚至造成Nan等一系列問題。

          下面的n_in為網(wǎng)絡(luò)的輸入大小,n_out為網(wǎng)絡(luò)的輸出大小,n為n_in或(n_in+n_out)*0.5

          Xavier初始法論文:http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf

          He初始化論文:https://arxiv.org/abs/1502.01852


          • uniform均勻分布初始化:
            w = np.random.uniform(low=-scale, high=scale, size=[n_in,n_out])

            • Xavier初始法,適用于普通激活函數(shù)(tanh,sigmoid):scale = np.sqrt(3/n)

            • He初始化,適用于ReLU:scale = np.sqrt(6/n)

          • normal高斯分布初始化:
            w = np.random.randn(n_in,n_out) * stdev # stdev為高斯分布的標(biāo)準(zhǔn)差,均值設(shè)為0

            • Xavier初始法,適用于普通激活函數(shù) (tanh,sigmoid):stdev = np.sqrt(n)

            • He初始化,適用于ReLU:stdev = np.sqrt(2/n)

          • svd初始化:對RNN有比較好的效果。參考論文:https://arxiv.org/abs/1312.6120


          數(shù)據(jù)預(yù)處理方式

          • zero-center ,這個挺常用的.
            X -= np.mean(X, axis = 0) # zero-center
            X /= np.std(X, axis = 0) # normalize

          • PCA whitening,這個用的比較少.


          訓(xùn)練技巧

          • 要做梯度歸一化,即算出來的梯度除以minibatch size

          • clip c(梯度裁剪): 限制最大梯度,其實(shí)是value = sqrt(w1^2+w2^2….),如果value超過了閾值,就算一個衰減系系數(shù),讓value的值等于閾值: 5,10,15

          • dropout對小數(shù)據(jù)防止過擬合有很好的效果,值一般設(shè)為0.5,小數(shù)據(jù)上dropout+sgd在我的大部分實(shí)驗(yàn)中,效果提升都非常明顯.因此可能的話,建議一定要嘗試一下。dropout的位置比較有講究, 對于RNN,建議放到輸入->RNN與RNN->輸出的位置.關(guān)于RNN如何用dropout,可以參考這篇論文:http://arxiv.org/abs/1409.2329

          • adam,adadelta等,在小數(shù)據(jù)上,我這里實(shí)驗(yàn)的效果不如sgd, sgd收斂速度會慢一些,但是最終收斂后的結(jié)果,一般都比較好。如果使用sgd的話,可以選擇從1.0或者0.1的學(xué)習(xí)率開始,隔一段時間,在驗(yàn)證集上檢查一下,如果cost沒有下降,就對學(xué)習(xí)率減半. 我看過很多論文都這么搞,我自己實(shí)驗(yàn)的結(jié)果也很好. 當(dāng)然,也可以先用ada系列先跑,最后快收斂的時候,更換成sgd繼續(xù)訓(xùn)練.同樣也會有提升.據(jù)說adadelta一般在分類問題上效果比較好,adam在生成問題上效果比較好。

          • 除了gate之類的地方,需要把輸出限制成0-1之外,盡量不要用sigmoid,可以用tanh或者relu之類的激活函數(shù).1. sigmoid函數(shù)在-4到4的區(qū)間里,才有較大的梯度。之外的區(qū)間,梯度接近0,很容易造成梯度消失問題。2. 輸入0均值,sigmoid函數(shù)的輸出不是0均值的。

          • rnn的dim和embdding size,一般從128上下開始調(diào)整. batch size,一般從128左右開始調(diào)整.batch size合適最重要,并不是越大越好.

          • word2vec初始化,在小數(shù)據(jù)上,不僅可以有效提高收斂速度,也可以可以提高結(jié)果.

          • 盡量對數(shù)據(jù)做shuffle

          • LSTM 的forget gate的bias,用1.0或者更大的值做初始化,可以取得更好的結(jié)果,來自這篇論文:http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf, 我這里實(shí)驗(yàn)設(shè)成1.0,可以提高收斂速度.實(shí)際使用中,不同的任務(wù),可能需要嘗試不同的值.

          • Batch Normalization據(jù)說可以提升效果,不過我沒有嘗試過,建議作為最后提升模型的手段,參考論文:Accelerating Deep Network Training by Reducing Internal Covariate Shift

          • 如果你的模型包含全連接層(MLP),并且輸入和輸出大小一樣,可以考慮將MLP替換成Highway Network,我嘗試對結(jié)果有一點(diǎn)提升,建議作為最后提升模型的手段,原理很簡單,就是給輸出加了一個gate來控制信息的流動,詳細(xì)介紹請參考論文: http://arxiv.org/abs/1505.00387

          • 來自@張馨宇的技巧:一輪加正則,一輪不加正則,反復(fù)進(jìn)行。


          Ensemble

          Ensemble是論文刷結(jié)果的終極核武器,深度學(xué)習(xí)中一般有以下幾種方式

          • 同樣的參數(shù),不同的初始化方式

          • 不同的參數(shù),通過cross-validation,選取最好的幾組

          • 同樣的參數(shù),模型訓(xùn)練的不同階段,即不同迭代次數(shù)的模型。

          • 不同的模型,進(jìn)行線性融合. 例如RNN和傳統(tǒng)模型.



          作者:Towser
          https://www.zhihu.com/question/41631631/answer/862075836


          總結(jié)一下我遇到的小朋友常犯的錯:

          1、一上來就自己動手寫模型。建議首先用成熟的開源項(xiàng)目及其默認(rèn)配置(例如 Gluon 對經(jīng)典模型的各種復(fù)現(xiàn)、各個著名模型作者自己放出來的代碼倉庫)在自己的數(shù)據(jù)集上跑一遍,在等程序運(yùn)行結(jié)束的時間里仔細(xì)研究一下代碼里的各種細(xì)節(jié),最后再自己寫或者改代碼。

          2、訓(xùn) RNN 不加 gradient clipping,導(dǎo)致訓(xùn)練一段時間以后 loss 突然變成 Nan。

          3、tying input & output embedding(就是詞向量層和輸出 softmax 前的矩陣共享參數(shù),在語言模型或機(jī)器翻譯中常用)時學(xué)習(xí)率需要設(shè)置得非常小,不然容易 Nan。

          4、在數(shù)據(jù)集很大的情況下,一上來就跑全量數(shù)據(jù)。建議先用 1/100、1/10 的數(shù)據(jù)跑一跑,對模型性能和訓(xùn)練時間有個底,外推一下全量數(shù)據(jù)到底需要跑多久。在沒有足夠的信心前不做大規(guī)模實(shí)驗(yàn)。

          5、只喜歡漂亮的模型結(jié)構(gòu),瞧不起調(diào)參數(shù)的論文/實(shí)驗(yàn)報告,看論文時經(jīng)常不看超參數(shù)設(shè)置等細(xì)節(jié)。舉個例子,現(xiàn)在還有相當(dāng)多的人不知道 BERT 的激活函數(shù)是 GELU 而不是 transformer 原論文中的 ReLU(雖然我覺得這一點(diǎn)很無厘頭)。在自己沒有太多資源實(shí)驗(yàn)的情況下,實(shí)驗(yàn)報告類文章簡直是業(yè)界良心好不好!

          NLP 領(lǐng)域主要推薦以下幾篇:

          Regularizing and Optimizing LSTM Language Models(LSTM 的訓(xùn)練技巧)

          Massive Exploration of Neural Machine Translation Architectures(NMT 里各個超參的影響)

          Training Tips for the Transformer Model(訓(xùn)練 Transformer 時會發(fā)生的各種現(xiàn)象)

          RoBERTa: A Robustly Optimized BERT Pretraining Approach(BERT 預(yù)訓(xùn)練技巧,雖然跟大部分人沒啥關(guān)系)

          CV 我不算太熟,不過也可以勉強(qiáng)推薦幾篇:

          Training ImageNet in 1 Hour(大批量訓(xùn)練技巧)

          Bag of Tricks for Image Classification with Convolutional Neural Networks(各種訓(xùn)練技巧集大成)

          Bag of Freebies for Training Object Detection Neural Networks(同上)

          EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks(當(dāng)前對參數(shù)利用最有效的 CNN,類似地還有一篇 EfficientDet)

          6、初始學(xué)習(xí)率:

          有時受 batch size、sequence length 各種因素的影響,loss 很大(比如說好幾萬),對于這種數(shù)字人是沒有數(shù)感的,建議首先計(jì)算一下 per token loss(如果是多任務(wù),可以每個任務(wù)單獨(dú)算;類似地,某些 CV 任務(wù)可以計(jì)算 per pixel loss),心里有點(diǎn)感覺。脫離損失函數(shù)的形式談學(xué)習(xí)率沒有意義(例如單是對 batch size 求和或者取平均這個差異就會使梯度差成百上千倍)。

          在確定初始學(xué)習(xí)率的時候,從一個很小的值(例如 1e-7)開始,然后每一步指數(shù)增大學(xué)習(xí)率(例如擴(kuò)大1.05 倍)進(jìn)行訓(xùn)練。訓(xùn)練幾百步應(yīng)該能觀察到損失函數(shù)隨訓(xùn)練步數(shù)呈對勾形,選擇損失下降最快那一段的學(xué)習(xí)率即可。

          7、Adam 可以解決一堆奇奇怪怪的問題(有時 loss 降不下去,換 Adam 瞬間就好了),也可以帶來一堆奇奇怪怪的問題(比如單詞詞頻差異很大,當(dāng)前 batch 沒有的單詞的詞向量也被更新;再比如Adam和L2正則結(jié)合產(chǎn)生的復(fù)雜效果)。用的時候要膽大心細(xì),萬一遇到問題找各種魔改 Adam(比如 MaskedAdam, AdamW 啥的)搶救。

          8、subword 總是會很穩(wěn)定地漲點(diǎn),只管用就對了。

          9、GPU 上報錯時盡量放在 CPU 上重跑,錯誤信息更友好。例如 GPU 報 "ERROR:tensorflow:Model diverged with loss = NaN" 其實(shí)很有可能是輸入 ID 超出了 softmax 詞表的范圍。

          10、要有耐心!

          這一條放在最后,是因?yàn)楹芏嗳瞬话阉?dāng)一回事兒??赡苁怯X得這一條不需要寫代碼所以不重要?我見過太多人因?yàn)檫@條浪費(fèi)時間了,所以專門強(qiáng)調(diào)一下。

          有些指標(biāo)是有滯后性的,需要等訓(xùn)練一段時間才開始動(例如 BN 訓(xùn)練和推斷行為不一致,可能訓(xùn)練的準(zhǔn)確率已經(jīng)很高了,但測試準(zhǔn)確率很低,這是因?yàn)?BN 的統(tǒng)計(jì)量還不準(zhǔn),再等等就好了)。很多人訓(xùn)練幾步看沒什么效果就把程序停掉開始 debug 了,但其實(shí)代碼毫無問題。如此反復(fù)好幾天甚至一兩周都在原地踏步,其實(shí)需要做的僅僅是讓程序自個兒安安靜靜地跑上幾個小時或者一天……


          作者:京東白條
          https://www.zhihu.com/question/41631631/answer/776852832


          相信很多剛開始接觸深度學(xué)習(xí)朋友,會感覺深度學(xué)習(xí)調(diào)參就像玄學(xué)一般,有時候參數(shù)調(diào)的好,模型會快速收斂,參數(shù)沒調(diào)好,可能迭代幾次loss值就直接變成Nan了。


          記得剛開始研究深度學(xué)習(xí)時,做過兩個小例子。一個是用tensorflow構(gòu)建了一個十分簡單的只有一個輸入層和一個softmax輸出層的Mnist手寫識別網(wǎng)絡(luò),第一次我對權(quán)重矩陣W和偏置b采用的是正態(tài)分布初始化,一共迭代了20個epoch,當(dāng)?shù)甑谝粋€epoch時,預(yù)測的準(zhǔn)確度只有10%左右(和隨機(jī)猜一樣,Mnist是一個十分類問題),當(dāng)?shù)甓畟€epoch,精度也僅僅達(dá)到了60%的樣子。然后我僅僅是將權(quán)重矩陣W初始化方法改成了全為0的初始化,其他的參數(shù)均保持不變,結(jié)果在訓(xùn)練完第一個epoch后預(yù)測精度就達(dá)到了85%以上,最終20個epoch后精度達(dá)到92%。另一個例子是回歸問題的預(yù)測,當(dāng)時采用的SGD優(yōu)化器,一開始學(xué)習(xí)率設(shè)定的0.1,模型可以正常訓(xùn)練,只是訓(xùn)練速度有些慢,我試著將學(xué)習(xí)率調(diào)整到0.3,希望可以加速訓(xùn)練速度,結(jié)果沒迭代幾輪loss就變成Nan了。于是從那時起我就深刻的感受到參數(shù)調(diào)節(jié)在深度學(xué)習(xí)模型訓(xùn)練中的重要意義。


          其實(shí)上述問題產(chǎn)生的原因也很好理解,對于參數(shù)初始化,因?yàn)槲覀儗W(xué)習(xí)的本來就是權(quán)重W與偏置b,如果初始化足夠好,直接就初始化到最優(yōu)解,那都不用進(jìn)行訓(xùn)練了。良好的初始化,可以讓參數(shù)更接近最優(yōu)解,這可以大大提高收斂速度,也可以防止落入局部極小。對于學(xué)習(xí)率,學(xué)習(xí)率如果取太大,會使模型訓(xùn)練非常震蕩,可以想象我們最小化一個二次拋物線,選取一個很大的學(xué)習(xí)率,那么迭代點(diǎn)會一直在拋物線的兩邊震蕩,收斂不到最小值,甚至還有螺旋上升迭代點(diǎn)的可能。


          下面對深度學(xué)習(xí)調(diào)參技巧談些心得,雖說不能讓你通過以下閱讀成為一個調(diào)參高手,但最起碼可以提供一些調(diào)參的思路。

          1. 激活函數(shù)選擇:

          常用的激活函數(shù)有relu、leaky-relu、sigmoid、tanh等。對于輸出層,多分類任務(wù)選用softmax輸出,二分類任務(wù)選用sigmoid輸出,回歸任務(wù)選用線性輸出。而對于中間隱層,則優(yōu)先選擇relu激活函數(shù)(relu激活函數(shù)可以有效的解決sigmoid和tanh出現(xiàn)的梯度彌散問題,多次實(shí)驗(yàn)表明它會比其他激活函數(shù)以更快的速度收斂)。另外,構(gòu)建序列神經(jīng)網(wǎng)絡(luò)(RNN)時要優(yōu)先選用tanh激活函數(shù)。

          2、學(xué)習(xí)率設(shè)定:

          一般學(xué)習(xí)率從0.1或0.01開始嘗試。學(xué)習(xí)率設(shè)置太大會導(dǎo)致訓(xùn)練十分不穩(wěn)定,甚至出現(xiàn)Nan,設(shè)置太小會導(dǎo)致?lián)p失下降太慢。學(xué)習(xí)率一般要隨著訓(xùn)練進(jìn)行衰減。衰減系數(shù)設(shè)0.1,0.3,0.5均可,衰減時機(jī),可以是驗(yàn)證集準(zhǔn)確率不再上升時,或固定訓(xùn)練多少個周期以后自動進(jìn)行衰減。

          3、防止過擬合:

          一般常用的防止過擬合方法有使用L1正則項(xiàng)、L2正則項(xiàng)、dropout、提前終止、數(shù)據(jù)集擴(kuò)充等。如果模型在訓(xùn)練集上表現(xiàn)比較好但在測試集上表現(xiàn)欠佳可以選擇增大L1或L2正則的懲罰力度(L2正則經(jīng)驗(yàn)上首選1.0,超過10很少見),或增大dropout的隨機(jī)失活概率(經(jīng)驗(yàn)首選0.5);或者當(dāng)隨著訓(xùn)練的持續(xù)在測試集上不增反降時,使用提前終止訓(xùn)練的方法。當(dāng)然最有效的還是增大訓(xùn)練集的規(guī)模,實(shí)在難以獲得新數(shù)據(jù)也可以使用數(shù)據(jù)集增強(qiáng)的方法,比如CV任務(wù)可以對數(shù)據(jù)集進(jìn)行裁剪、翻轉(zhuǎn)、平移等方法進(jìn)行數(shù)據(jù)集增強(qiáng),這種方法往往都會提高最后模型的測試精度。

          4、優(yōu)化器選擇:

          如果數(shù)據(jù)是稀疏的,就用自適應(yīng)方法,即 Adagrad, Adadelta, RMSprop, Adam。整體來講,Adam 是最好的選擇。SGD 雖然能達(dá)到極小值,但是比其它算法用的時間長,而且可能會被困在鞍點(diǎn)。如果需要更快的收斂,或者是訓(xùn)練更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò),需要用一種自適應(yīng)的算法。

          5、殘差塊與BN層:

          如果你希望訓(xùn)練一個更深更復(fù)雜的網(wǎng)絡(luò),那么殘差塊絕對是一個重要的組件,它可以讓你的網(wǎng)絡(luò)訓(xùn)練的更深。

          BN層具有加速訓(xùn)練速度,有效防止梯度消失與梯度爆炸,具有防止過擬合的效果,所以構(gòu)建網(wǎng)絡(luò)時最好要加上這個組件。

          6.自動調(diào)參方法:

          (1)Grid Search:網(wǎng)格搜索,在所有候選的參數(shù)選擇中,通過循環(huán)遍歷,嘗試每一種可能性,表現(xiàn)最好的參數(shù)就是最終的結(jié)果。其原理就像是在數(shù)組里找最大值。缺點(diǎn)是太費(fèi)時間了,特別像神經(jīng)網(wǎng)絡(luò),一般嘗試不了太多的參數(shù)組合。

          (2)Random Search:經(jīng)驗(yàn)上,Random Search比Gird Search更有效。實(shí)際操作的時候,一般也是先用Gird Search的方法,得到所有候選參數(shù),然后每次從中隨機(jī)選擇進(jìn)行訓(xùn)練。另外Random Search往往會和由粗到細(xì)的調(diào)參策略結(jié)合使用,即在效果比較好的參數(shù)附近進(jìn)行更加精細(xì)的搜索。

          (3)Bayesian Optimization:貝葉斯優(yōu)化,考慮到了不同參數(shù)對應(yīng)的    實(shí)驗(yàn)結(jié)果值,因此更節(jié)省時間,貝葉斯調(diào)參比Grid Search迭代次數(shù)少,  速度快;而且其針對非凸問題依然穩(wěn)健。

          7.參數(shù)隨機(jī)初始化與數(shù)據(jù)預(yù)處理:

          參數(shù)初始化很重要,它決定了模型的訓(xùn)練速度與是否可以躲開局部極小。relu激活函數(shù)初始化推薦使用He normal,tanh初始化推薦使用Glorot normal,其中Glorot normal也稱作Xavier normal初始化;數(shù)據(jù)預(yù)處理方法一般也就采用數(shù)據(jù)歸一化即可。


          猜您喜歡:


          等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!  

          CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總

          CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文

          【CVPR 2021】通過GAN提升人臉識別的遺留難題

          CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總

          經(jīng)典GAN不得不讀:StyleGAN

          最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文

          超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 | 《Python進(jìn)階》中文版

          附下載 | 經(jīng)典《Think Python》中文版

          附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

          附下載 | 最新2020李沐《動手學(xué)深度學(xué)習(xí)》

          附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

          瀏覽 100
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香蕉1区 | 成人操屄视频 | 黄色一级小视频 | 五月丁香小说色原网站 | 超碰中文在线字幕 |