40萬(wàn)年薪的算法崗招聘,都在問(wèn)這80個(gè)問(wèn)題
我自從2015年擔(dān)任算法組leader,作為面試官面試了不少同學(xué)。前前后后面試了超過(guò)200名同學(xué),其中有不少入職的同學(xué)后來(lái)發(fā)展都不錯(cuò),也堅(jiān)定了自己對(duì)于選人標(biāo)準(zhǔn)的自信心。
今年2020年找工作尤其艱難,我把這些年作為面試官一些重要的面試題整理出來(lái),一共80道,希望能夠幫助到大家。
為了方便大家,我做了一個(gè)歸類,一共分成了6大類,分別是:機(jī)器學(xué)習(xí),特征工程,深度學(xué)習(xí),NLP,CV,推薦系統(tǒng)。這些知識(shí)既是面試中的常見(jiàn)問(wèn)題,也可以作為大家整理自己思路的參考資料。(需要的同學(xué)文末免費(fèi)領(lǐng)取)
機(jī)器學(xué)習(xí)理論類:
1. 寫(xiě)出全概率公式&貝葉斯公式
2. 模型訓(xùn)練為什么要引入偏差(bias)和方差(variance)? 證
3. CRF/樸素貝葉斯/EM/最大熵模型/馬爾科夫隨機(jī)場(chǎng)/混合高斯模型
4. 如何解決過(guò)擬合問(wèn)題?
5. One-hot的作用是什么?為什么不直接使用數(shù)字作為表示
6. 決策樹(shù)和隨機(jī)森林的區(qū)別是什么?
7. 樸素貝葉斯為什么“樸素naive”?
8. kmeans初始點(diǎn)除了隨機(jī)選取之外的方法
9. LR明明是分類模型為什么叫回歸
10. 梯度下降如何并行化
11. LR中的L1/L2正則項(xiàng)是啥
12. 簡(jiǎn)述決策樹(shù)構(gòu)建過(guò)程
13. 解釋Gini系數(shù)
14. 決策樹(shù)的優(yōu)缺點(diǎn)
15. 出現(xiàn)估計(jì)概率值為 0 怎么處理
16. 隨機(jī)森林的生成過(guò)程
17. 介紹一下Boosting的思想
18. gbdt的中的tree是什么tree?有什么特征
19. xgboost對(duì)比gbdt/boosting Tree有了哪些方向上的優(yōu)化
20. 什么叫最優(yōu)超平面
21. 什么是支持向量
22. SVM如何解決多分類問(wèn)題
23. 核函數(shù)的作用是啥
特征工程類:
1. 怎么去除DataFrame里的缺失值?
2. 特征無(wú)量綱化的常見(jiàn)操作方法
3. 如何對(duì)類別變量進(jìn)行獨(dú)熱編碼?
4. 如何把“年齡”字段按照我們的閾值分段?
5. 如何根據(jù)變量相關(guān)性畫(huà)出熱力圖?
6. 如何把分布修正為類正態(tài)分布?
7. 怎么簡(jiǎn)單使用PCA來(lái)劃分?jǐn)?shù)據(jù)且可視化呢?
8. 怎么簡(jiǎn)單使用LDA來(lái)劃分?jǐn)?shù)據(jù)且可視化呢?
深度學(xué)習(xí)類:
1. 你覺(jué)得batch-normalization過(guò)程是什么樣的
2. 激活函數(shù)有什么用?常見(jiàn)的激活函數(shù)的區(qū)別是什么?
3. Softmax的原理是什么?有什么作用?
CNN的平移不變性是什么?如何實(shí)現(xiàn)的?
4. VGG,GoogleNet,ResNet等網(wǎng)絡(luò)之間的區(qū)別是什么?
5. 殘差網(wǎng)絡(luò)為什么能解決梯度消失的問(wèn)題
6. LSTM為什么能解決梯度消失/爆炸的問(wèn)題
7. Attention對(duì)比RNN和CNN,分別有哪點(diǎn)你覺(jué)得的優(yōu)勢(shì)
8. 寫(xiě)出Attention的公式
9. Attention機(jī)制,里面的q,k,v分別代表什么
10. 為什么self-attention可以替代seq2seq
自然語(yǔ)言處理(NLP)類:
1. GolVe的損失函數(shù)
2. 為什么GolVe會(huì)用的相對(duì)比W2V少
3. 層次softmax流程
4. 負(fù)采樣流程
5. 怎么衡量學(xué)到的embedding的好壞
6. 闡述CRF原理
7. 詳述LDA原理
8. LDA中的主題矩陣如何計(jì)算
9. LDA和Word2Vec區(qū)別?LDA和Doc2Vec區(qū)別
10. Bert的雙向體現(xiàn)在什么地方
11. Bert的是怎樣預(yù)訓(xùn)練的
12. 在數(shù)據(jù)中隨機(jī)選擇 15% 的標(biāo)記,其中80%被換位[mask],10%不變、10%隨機(jī)替換其他單詞,原因是什么
13. 為什么BERT有3個(gè)嵌入層,它們都是如何實(shí)現(xiàn)的
14. 手寫(xiě)一個(gè)multi-head attention
推薦系統(tǒng)類:
1. DNN與DeepFM之間的區(qū)別
2. 你在使用deepFM的時(shí)候是如何處理欠擬合和過(guò)擬合問(wèn)題的
3. deepfm的embedding初始化有什么值得注意的地方嗎
4. YoutubeNet 變長(zhǎng)數(shù)據(jù)如何處理的
5. YouTubeNet如何避免百萬(wàn)量級(jí)的softmax問(wèn)題的
6. 推薦系統(tǒng)有哪些常見(jiàn)的評(píng)測(cè)指標(biāo)?
7. MLR的原理是什么?做了哪些優(yōu)化?
計(jì)算機(jī)視覺(jué)(CV)類:
1. 常見(jiàn)的模型加速方法
2. 目標(biāo)檢測(cè)里如何有效解決常見(jiàn)的前景少背景多的問(wèn)題
3. 目標(biāo)檢測(cè)里有什么情況是SSD、YOLOv3、Faster R-CNN等所不能解決的,假設(shè)網(wǎng)絡(luò)擬合能力無(wú)限強(qiáng)
4. ROIPool和ROIAlign的區(qū)別
5. 介紹常見(jiàn)的梯度下降優(yōu)化方法
6. Detection你覺(jué)的還有哪些可做的點(diǎn)
7. mini-Batch SGD相對(duì)于GD有什么優(yōu)點(diǎn)
8. 人體姿態(tài)估計(jì)主流的兩個(gè)做法是啥?簡(jiǎn)單介紹下
9. 卷積的實(shí)現(xiàn)原理以及如何快速高效實(shí)現(xiàn)局部weight sharing的卷積操作方式
10. CycleGAN的生成效果為啥一般都是位置不變紋理變化,為啥不能產(chǎn)生不同位置的生成效果
這些問(wèn)題的答案,我們給大家整理了一個(gè)資料包,大家掃碼添即可領(lǐng)取,祝大家求職順利~
長(zhǎng)按掃碼添加
本號(hào)只有100個(gè)名額
↓ ↓ ↓
備注【面試題】添加?
注:期望資料請(qǐng)選擇【面試題】
