干貨 | 百度實(shí)習(xí)算法崗面試題分享!

問(wèn)題1:LR推導(dǎo)目標(biāo)函數(shù)并求梯度
邏輯回歸損失函數(shù)及梯度推導(dǎo)公式如下:

求導(dǎo):


問(wèn)題2:GBDT和XGBOOST差別
1、利用二階信息;
2、處理缺失值;
3、弱分類(lèi)器選擇;
4、列抽樣和行抽樣;
5、正則項(xiàng)做預(yù)剪枝;
6、并行化處理(特征排序等)。

?
問(wèn)題3:Batch Normalization 缺點(diǎn)
batch太小,會(huì)造成波動(dòng)大;對(duì)于文本數(shù)據(jù),不同有效長(zhǎng)度問(wèn)題;測(cè)試集上兩個(gè)數(shù)據(jù)均值和方差差別很大就不合適了
附:LN是對(duì)一個(gè)樣本的一個(gè)時(shí)間步上的數(shù)據(jù)進(jìn)行減均除標(biāo)準(zhǔn)差,然后再回放(參數(shù)學(xué)習(xí))對(duì)應(yīng)到普通線性回歸就是一層節(jié)點(diǎn)求均除標(biāo)準(zhǔn)差。

?
問(wèn)題4:分詞如何做
基于規(guī)則(超大詞表);基于統(tǒng)計(jì)(兩字同時(shí)出現(xiàn)越多,就越可能是詞);基于網(wǎng)絡(luò)LSTM+CRF詞性標(biāo)注,也可以分詞。

?
問(wèn)題5:Adam缺點(diǎn)
后期梯度很小,幾乎不動(dòng)了,沒(méi)有SGD好,前期快是優(yōu)點(diǎn);泛化能力不強(qiáng)。

問(wèn)題6:各類(lèi)激活函數(shù)優(yōu)缺點(diǎn)
常見(jiàn)的激活函數(shù)有:Sigmoid、Tanh、ReLU、Leaky ReLU
Sigmoid函數(shù):
特點(diǎn):它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出,特別的,如果是非常大的負(fù)數(shù),那么輸出就是0;如果是非常大的正數(shù),輸出就是1。
缺點(diǎn):
缺點(diǎn)1:在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度消失,其中梯度爆炸發(fā)生的概率非常小,而梯度消失發(fā)生的概率比較大。
缺點(diǎn)2:Sigmoid 的 output不是0均值(即zero-centered)。
缺點(diǎn)3:其解析式中含有冪運(yùn)算,計(jì)算機(jī)求解時(shí)相對(duì)來(lái)講比較耗時(shí)。對(duì)于規(guī)模比較大的深度網(wǎng)絡(luò),這會(huì)較大地增加訓(xùn)練時(shí)間。
Tanh函數(shù):
特點(diǎn):它解決了Sigmoid函數(shù)的不是zero-centered輸出問(wèn)題,收斂速度比sigmoid要快,然而,梯度消失(gradient vanishing)的問(wèn)題和冪運(yùn)算的問(wèn)題仍然存在。
ReLU函數(shù):
特點(diǎn):
1.ReLu函數(shù)是利用閾值來(lái)進(jìn)行因變量的輸出,因此其計(jì)算復(fù)雜度會(huì)比剩下兩個(gè)函數(shù)低(后兩個(gè)函數(shù)都是進(jìn)行指數(shù)運(yùn)算)
2.ReLu函數(shù)的非飽和性可以有效地解決梯度消失的問(wèn)題,提供相對(duì)寬的激活邊界。
3.ReLU的單側(cè)抑制提供了網(wǎng)絡(luò)的稀疏表達(dá)能力。
?
ReLU的局限性:在于其訓(xùn)練過(guò)程中會(huì)導(dǎo)致神經(jīng)元死亡的問(wèn)題。
這是由于函數(shù)f(x)=max(0,x)導(dǎo)致負(fù)梯度在經(jīng)過(guò)該ReLU單元時(shí)被置為0,且在之后也不被任何數(shù)據(jù)激活,即流經(jīng)該神經(jīng)元的梯度永遠(yuǎn)為0,不對(duì)任何數(shù)據(jù)產(chǎn)生響應(yīng)。在實(shí)際訓(xùn)練中,如果學(xué)習(xí)率(Learning Rate)設(shè)置較大,會(huì)導(dǎo)致超過(guò)一定比例的神經(jīng)元不可逆死亡,進(jìn)而參數(shù)梯度無(wú)法更新,整個(gè)訓(xùn)練過(guò)程失敗。
Leaky ReLu函數(shù):
LReLU與ReLU的區(qū)別在于, 當(dāng)z<0時(shí)其值不為0,而是一個(gè)斜率為a的線性函數(shù),一般a為一個(gè)很小的正常數(shù), 這樣既實(shí)現(xiàn)了單側(cè)抑制,又保留了部分負(fù)梯度信息以致不完全丟失。但另一方面,a值的選擇增加了問(wèn)題難度,需要較強(qiáng)的人工先驗(yàn)或多次重復(fù)訓(xùn)練以確定合適的參數(shù)值。
基于此,參數(shù)化的PReLU(Parametric ReLU)應(yīng)運(yùn)而生。它與LReLU的主要區(qū)別是將負(fù)軸部分斜率a作為網(wǎng)絡(luò)中一個(gè)可學(xué)習(xí)的參數(shù),進(jìn)行反向傳播訓(xùn)練,與其他含參數(shù)網(wǎng)絡(luò)層聯(lián)合優(yōu)化。而另一個(gè)LReLU的變種增加了“隨機(jī)化”機(jī)制,具體地,在訓(xùn)練過(guò)程中,斜率a作為一個(gè)滿(mǎn)足某種分布的隨機(jī)采樣;測(cè)試時(shí)再固定下來(lái)。Random ReLU(RReLU)在一定程度上能起到正則化的作用。
?
ELU函數(shù):
ELU函數(shù)是針對(duì)ReLU函數(shù)的一個(gè)改進(jìn)型,相比于ReLU函數(shù),在輸入為負(fù)數(shù)的情況下,是有一定的輸出的,而且這部分輸出還具有一定的抗干擾能力。這樣可以消除ReLU死掉的問(wèn)題,不過(guò)還是有梯度飽和和指數(shù)運(yùn)算的問(wèn)題。

?
問(wèn)題7:畫(huà)一下Transformer結(jié)構(gòu)圖


問(wèn)題8:word2vector負(fù)采樣時(shí)為什么要對(duì)頻率做3/4次方?
在保證高頻詞容易被抽到的大方向下,通過(guò)權(quán)重3/4次冪的方式,適當(dāng)提升低頻詞、罕見(jiàn)詞被抽到的概率。如果不這么做,低頻詞,罕見(jiàn)詞很難被抽到,以至于不被更新到對(duì)應(yīng)Embedding。
— 推薦閱讀 — 最新大廠面試題
干貨資料
AI開(kāi)源項(xiàng)目論文
NLP ( 自然語(yǔ)言處理 )
CV(計(jì)算機(jī)視覺(jué))
推薦
戳↓↓“閱讀原文”領(lǐng)取PDF!

