<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CV崗位面試題:簡(jiǎn)述正則化與奧卡姆剃刀原則

          共 1457字,需瀏覽 3分鐘

           ·

          2021-02-03 01:24

          文 | 七月在線
          編 | 小七


          解析:


          正則化 Regularization

          正則化最主要的功能是防止網(wǎng)絡(luò)過(guò)擬合,主要有L1正則和L2正則:??

          L2正則化(嶺回歸)可能是最常用的正則化方法了,以通過(guò)懲罰目標(biāo)函數(shù)中所有參數(shù)的平方來(lái)防止過(guò)擬合。即對(duì)于網(wǎng)絡(luò)中的每個(gè)權(quán)重,在目標(biāo)函數(shù)中增加一個(gè)項(xiàng),其中是正則化懲罰系數(shù)。

          加上后該式子關(guān)于梯度就是而不是了。L2正則化可以直觀理解為它對(duì)于大數(shù)值的權(quán)重向量進(jìn)行嚴(yán)厲懲罰,傾向于更加分散的權(quán)重向量。由于輸入和權(quán)重之間的乘法操作,使網(wǎng)絡(luò)更傾向于使用所有輸入特征,而不是嚴(yán)重依賴(lài)輸入特征中某些小部分特征。最后需要注意在梯度下降和參數(shù)更新的時(shí)候,使用L2正則化意味著所有的權(quán)重都以w += -lambda * W向著0線性下降。??

          L1正則化(套索回歸)是另一個(gè)相對(duì)常用的正則化方法。對(duì)于每個(gè)我們都向目標(biāo)函數(shù)增加一個(gè)項(xiàng)。L1和L2正則化也可以進(jìn)行組合:,這也被稱(chēng)作彈性網(wǎng)絡(luò)回歸。L1正則化有一個(gè)有趣的性質(zhì),它會(huì)讓權(quán)重向量在最優(yōu)化的過(guò)程中變得稀疏(即非常接近0)。

          也就是說(shuō),使用L1正則化的神經(jīng)元最后使用的是它們最重要的輸入數(shù)據(jù)的稀疏子集,同時(shí)對(duì)于噪音輸入則幾乎是不變的了。相較L1正則化,L2正則化中的權(quán)重向量大多是分散的小數(shù)字。在實(shí)踐中,如果不是特別關(guān)注某些明確的特征選擇,一般說(shuō)來(lái)L2正則化都會(huì)比L1正則化效果好。
          ????
          最大范式約束(Max norm constraints)是另一種形式的正則化,給每個(gè)神經(jīng)元中權(quán)重向量的量級(jí)設(shè)定上限,并使用投影梯度下降來(lái)確保這一約束。在實(shí)踐中,與之對(duì)應(yīng)的是參數(shù)更新方式不變,然后要求神經(jīng)元中的權(quán)重向量必須滿(mǎn)足這一條件,一般值為3或者4。有研究者發(fā)文稱(chēng)在使用這種正則化方法時(shí)效果更好。這種正則化還有一個(gè)良好的性質(zhì),即使在學(xué)習(xí)率設(shè)置過(guò)高的時(shí)候,網(wǎng)絡(luò)中也不會(huì)出現(xiàn)數(shù)值“爆炸”,這是因?yàn)樗膮?shù)更新始終是被限制著的。

          隨機(jī)失活(Dropout)是一個(gè)簡(jiǎn)單又極其有效的正則化方法。該方法由Srivastava在論文Dropout: A Simple Way to Prevent Neural Networks from Overfitting中提出的,與L1正則化,L2正則化和最大范式約束等方法互為補(bǔ)充。在訓(xùn)練的時(shí)候,隨機(jī)失活的實(shí)現(xiàn)方法是讓神經(jīng)元以超參數(shù)的概率被激活或者被設(shè)置為0。
          ????????????????????????????????????????????????????

          圖片展示了其核心思路:在訓(xùn)練過(guò)程中,隨機(jī)失活可以被認(rèn)為是對(duì)完整的神經(jīng)網(wǎng)絡(luò)抽樣出一些子集,每次基于輸入數(shù)據(jù)只更新子網(wǎng)絡(luò)的參數(shù)(然而,數(shù)量巨大的子網(wǎng)絡(luò)們并不是相互獨(dú)立的,網(wǎng)絡(luò)之間參數(shù)共享)。在推理階段不使用隨機(jī)失活,可以理解為是對(duì)數(shù)量巨大的子網(wǎng)絡(luò)們做了模型集成(model ensemble),以此來(lái)計(jì)算出一個(gè)平均的預(yù)測(cè)。

          奧卡姆剃刀原理:

          這個(gè)原理稱(chēng)為"如無(wú)必要,勿增實(shí)體", 即"簡(jiǎn)單有效原理"。

          奧卡姆剃刀原理是指,在科學(xué)研究任務(wù)中,應(yīng)該優(yōu)先使用較為簡(jiǎn)單的公式或者原理,而不是復(fù)雜的。應(yīng)用到機(jī)器學(xué)習(xí)任務(wù)中,可以通過(guò)減小模型的復(fù)雜度來(lái)降低過(guò)擬合的風(fēng)險(xiǎn),即模型在能夠較好擬合訓(xùn)練集(經(jīng)驗(yàn)風(fēng)險(xiǎn))的前提下,盡量減小模型的復(fù)雜度(結(jié)構(gòu)風(fēng)險(xiǎn))。



          瀏覽 34
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.草逼.vom | 欧美成人精品二区免费 | 欧洲成人在线免费观看 | 黄色a一级片免费看 | 国产1234 |