2021年9月字節(jié)跳動商業(yè)廣告,算法崗面試題分享!
文 | 七月在線
編 | 小七

目錄
FIGHTING
問題1:SVM相關(guān),怎么理解SVM,對偶問題怎么來的,核函數(shù)是怎么回事。
問題2:集成學(xué)習(xí)的方式,隨機(jī)森林講一下,boost講一下,XGBOOST是怎么回事講一下。
問題3:決策樹是什么東西,選擇葉子節(jié)點的評價指標(biāo)都有什么。對于連續(xù)值,怎么選擇分割點。
問題4:模型評價指標(biāo)都有什么,AUC是什么,代表什么東西。
問題5:關(guān)于樣本不平衡都有什么方法處理
問題1:SVM相關(guān),怎么理解SVM,對偶問題怎么來的,核函數(shù)是怎么回事。
SVM是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器,間隔最大使它有別于感知機(jī)。
SVM為什么要將原始問題轉(zhuǎn)換為對偶問題來求解,原因如下:
對偶問題將原始問題中的約束轉(zhuǎn)為了對偶問題中的等式約束;
方便核函數(shù)的引入;
改變了問題的復(fù)雜度。由求特征向量w轉(zhuǎn)化為求比例系數(shù)a,在原始問題下,求解的復(fù)雜度與樣本的維度有關(guān),即w的維度。在對偶問題下,只與樣本數(shù)量有關(guān)。
核函數(shù)的使用實際上是增加維度,把原本在低維度里的樣本,映射到更高的維度里,將本來不可以線性分類的點,變成可以線性分類的。
問題2:集成學(xué)習(xí)的方式,隨機(jī)森林講一下,boost講一下,XGBOOST是怎么回事講一下。
集成學(xué)習(xí)的方式主要有bagging,boosting,stacking等,隨機(jī)森林主要是采用了bagging的思想,通過自助法(bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取n個樣本生成新的訓(xùn)練樣本集合訓(xùn)練決策樹,然后按以上步驟生成m棵決策樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。
boosting是分步學(xué)習(xí)每個弱分類器,最終的強分類器由分步產(chǎn)生的分類器組合而成,根據(jù)每步學(xué)習(xí)到的分類器去改變各個樣本的權(quán)重(被錯分的樣本權(quán)重加大,反之減小)
它是一種基于boosting增強策略的加法模型,訓(xùn)練的時候采用前向分布算法進(jìn)行貪婪的學(xué)習(xí),每次迭代都學(xué)習(xí)一棵CART樹來擬合之前 t-1 棵樹的預(yù)測結(jié)果與訓(xùn)練樣本真實值的殘差。
XGBoost對GBDT進(jìn)行了一系列優(yōu)化,比如損失函數(shù)進(jìn)行了二階泰勒展開、目標(biāo)函數(shù)加入正則項、支持并行和默認(rèn)缺失值處理等,在可擴(kuò)展性和訓(xùn)練速度上有了巨大的提升,但其核心思想沒有大的變化。
問題3:決策樹是什么東西,選擇葉子節(jié)點的評價指標(biāo)都有什么。對于連續(xù)值,怎么選擇分割點。
決策樹有三種:分別為ID3,C4.5,Cart樹
ID3損失函數(shù)︰
C4.5損失函數(shù):
Cart樹損失函數(shù):
對于連續(xù)值往往通過隨機(jī)取值、給定采樣間隔或者根據(jù)樣本的值這三種方法的其中一個選擇分割點,據(jù)稱,使用隨機(jī)取值的辦法最終得到的決策樹(隨機(jī)森林)最優(yōu)。
問題4:模型評價指標(biāo)都有什么,AUC是什么,代表什么東西。
準(zhǔn)確率:分類正確的樣本占總樣本的比例
準(zhǔn)確率的缺陷:當(dāng)正負(fù)樣本不平衡比例時,當(dāng)不同類別的樣本比例非常不均衡時,占比大的類別往往成為影響準(zhǔn)確率的最主要因素。
精確率:分類正確的正樣本個數(shù)占分類器預(yù)測為正樣本的樣本個數(shù)的比例;
召回率:分類正確的正樣本個數(shù)占實際的正樣本個數(shù)的比例。
F1 score:是精確率和召回率的調(diào)和平均數(shù),綜合反應(yīng)模型分類的性能。
Precision值和Recall值是既矛盾又統(tǒng)一的兩個指標(biāo),為了提高Precision值,分類器需要盡量在“更有把握”時才把樣本預(yù)測為正樣本,但此時往往會因為過于保 守而漏掉很多“沒有把握”的正樣本,導(dǎo)致Recall值降低。
AUC是ROC曲線下面的面積,AUC可以解讀為從所有正例中隨機(jī)選取一個樣本A,再從所有負(fù)例中隨機(jī)選取一個樣本B,分類器將A判為正例的概率比將B判為正例的概率大的可能性。AUC反映的是分類器對樣本的排序能力。AUC越大,自然排序能力越好,即分類器將越多的正例排在負(fù)例之前。
?問題5:關(guān)于樣本不平衡都有什么方法處理
常用于解決數(shù)據(jù)不平衡的方法:
欠采樣:從樣本較多的類中再抽取,僅保留這些樣本點的一部分;
過采樣:復(fù)制少數(shù)類中的一些點,以增加其基數(shù);
生成合成數(shù)據(jù):從少數(shù)類創(chuàng)建新的合成點,以增加其基數(shù)。
添加額外特征:除了重采樣外,我們還可以在數(shù)據(jù)集中添加一個或多個其他特征,使數(shù)據(jù)集更加豐富,這樣我們可能獲得更好的準(zhǔn)確率結(jié)果。
— 推薦閱讀 — NLP ( 自然語言處理 )
CV(計算機(jī)視覺)
推薦
最新大廠面試題
AI開源項目論文






