NLP面試復(fù)盤(pán) | 阿里/騰訊/頭條/paypal/快手
作者 | ray-95
整理 | NewBeeNLP
周末愉快!來(lái)看幾篇面筋漲漲經(jīng)驗(yàn)~
寫(xiě)在前面
本人學(xué)渣一枚,春招實(shí)習(xí)有幸過(guò)了幾家大廠,在此期間得到了很多幫助,也特意分享一下自己的經(jīng)驗(yàn),希望能幫助到有需要的人。
阿里
阿里的面試周期最長(zhǎng),最初2月份參加預(yù)面試,到正式面試到收offer,經(jīng)歷了2個(gè)月。
一面:1h
面試講項(xiàng)目 項(xiàng)目中為什么使用lightGBM,比起xgboost的優(yōu)點(diǎn)是什么 因果詞向量的應(yīng)用場(chǎng)景 tf多個(gè)變量如何共享權(quán)重 SGD min-SGD的區(qū)別 對(duì)epcho做shuffle,類似于哪一種優(yōu)化器 介紹一下優(yōu)化器 什么情況下不適用動(dòng)量?jī)?yōu)化器 WGAN,要保證梯度平滑,使動(dòng)量?jī)?yōu)化器容易過(guò)擬合,防止梯度突變 介紹一下生成任務(wù)的做法 用auto-regression的模型 beam-search,如何在做生成任務(wù)的時(shí)候,生成多個(gè)結(jié)果并且保證結(jié)果的多樣性 非自回歸的模型如何一次性生成整個(gè)句子 做后序遍歷,判斷一個(gè)數(shù)組是否滿足后序遍歷 機(jī)器翻譯的最新論文
二面:1h
部門(mén)leader面,主要問(wèn)項(xiàng)目,項(xiàng)目難點(diǎn)在哪里
介紹attention 和self.attention區(qū)別 算法題目: 給定x種硬幣,湊齊y元 給2種硬幣,非均勻,計(jì)算正反面的概率,隨機(jī)選1枚,拋100次,重復(fù)1000次,如何計(jì)算2種硬幣的概率
阿里3面(交叉面)
只能只用兩個(gè)api :getcolour O(1) --獲取指定位置的顏色 Swap:ij 交換位置 lr模型的輸入和輸出分別是什么 lr對(duì)商品進(jìn)行點(diǎn)擊進(jìn)行概率預(yù)測(cè),輸入需要做一些什么處理 Lr---對(duì)商品,估計(jì)商品點(diǎn)擊的概率--預(yù)測(cè) 什么情況下需要將連續(xù)特征離散化--- One-hot lr按照分布需要將特征如何進(jìn)行離散化 樹(shù)模型如何處理離散型特征 lr模型---根據(jù)做特征交叉,為什么 lr中如何緩解過(guò)擬合 減輕特征工程的手段,--如何構(gòu)建更多的特征 coding題目:黑盒子,n是3的倍數(shù)個(gè)球,3種顏色,n個(gè)球排成一排,亂序 rgb
騰訊微信
一面掛
學(xué)習(xí)率/優(yōu)化器(adam)/bach-normalzation/?res+learn-rate 一種可行的方案是用拒絕推斷 一種方案是用smote 自我介紹+詢問(wèn)簡(jiǎn)歷內(nèi)容 詞向量的方法 正負(fù)樣本不均衡的問(wèn)題,如何解決 介紹bert;bert如何使用transformer的encoding模塊-bert的輸入和transformer有什么不同 bert有什么缺點(diǎn) XGboost和GBDT xgboost做樹(shù)的分類的時(shí)候是怎么做的-- 做過(guò)哪些nlp深度學(xué)習(xí)的任務(wù) 深度學(xué)習(xí)模型在訓(xùn)練過(guò)程中如何加速收斂 防止過(guò)擬合 mse和交叉熵的區(qū)別----為什么用交叉熵 一對(duì)父母,已知一個(gè)人是男孩,另一個(gè)人是男孩的概率 給100億個(gè)數(shù)據(jù),怎么找到中位數(shù)
騰訊PCG
pgc一面:(30min)
主要聊項(xiàng)目
pcg二面:
模型學(xué)習(xí)中,正負(fù)樣本的訓(xùn)練方式不同有什么影響 引入詞向量的相似性對(duì)于結(jié)果有什么不好的影響 面試題目:給兩個(gè)球,求解最壞情況下走多少步(采用貪心的思想)
pcg3面:(交叉面)
主要問(wèn)項(xiàng)目 相似性匹配的常用算法 bert
頭條
算法崗掛,后來(lái)大數(shù)據(jù)崗?fù)ㄟ^(guò)面試,主要在這邊記錄算法崗的面試經(jīng)驗(yàn)
一面
問(wèn)了bert ,transformer 用梯度下降的思路求開(kāi)根號(hào) 寫(xiě)交叉熵公式 防止過(guò)擬合的方法 transformer的中的attention機(jī)制,其中self-attention和encoder-decoder attention之間的關(guān)系 最小二乘法的推導(dǎo)公式,最小二乘究竟是什么,和極大似然的關(guān)系 在詞向量中很稀疏和出現(xiàn)未登錄詞,如何處理 線性和非線性存在什么關(guān)系之間的關(guān)系 logistic和svm之間的區(qū)別---svm自帶正則化 依存句法如何實(shí)現(xiàn)---涉及crf-序列標(biāo)注
快手
nlp和風(fēng)控工程師
一面
問(wèn)項(xiàng)目,著重問(wèn)了第一個(gè)項(xiàng)目 然后兩道算法題,bugfree 問(wèn)了batch-normalization和layer-normalization的區(qū)別,然后問(wèn)在inference線上模型如何處理 FNN-中有沒(méi)有隱層 inference-batch-nor---針對(duì)一條輸入
二面
position位置,信息 transformer為什么用+不用concat Drop-- 實(shí)現(xiàn)方式上是否會(huì)有差別----train 和test上有什么區(qū)別 train會(huì)有一定概率拋棄,test會(huì)保留全部,train會(huì)除以概率 dropout 和L1 和l2是什么關(guān)系,有什么異同 做題--兩種方法實(shí)現(xiàn)
paypal
數(shù)據(jù)科學(xué)家崗位
一面二面同時(shí):
項(xiàng)目+場(chǎng)景題 如何防止過(guò)擬合,dropout為什么可以防止過(guò)擬合 sql的題目 具體問(wèn)項(xiàng)目,問(wèn)具體的實(shí)現(xiàn)策略
三面
acc recall f1 變量與target相關(guān)性的描述 特征組合 特征重要性判斷 模型好壞的評(píng)估 分?jǐn)?shù)映射是否符合正態(tài)分布
一起交流
想和你一起學(xué)習(xí)進(jìn)步!『NewBeeNLP』目前已經(jīng)建立了多個(gè)不同方向交流群(機(jī)器學(xué)習(xí) / 深度學(xué)習(xí) / 自然語(yǔ)言處理 / 搜索推薦 / 圖網(wǎng)絡(luò) / 面試交流 / 等),名額有限,趕緊添加下方微信加入一起討論交流吧!(注意一定要備注信息才能通過(guò))
- END -

2021-09-10
2021-09-07
2021-09-06

評(píng)論
圖片
表情
