<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          超全的機(jī)器學(xué)習(xí)算法崗面試與提問(wèn)總結(jié)

          共 14241字,需瀏覽 29分鐘

           ·

          2020-07-13 11:18

          加入極市專業(yè)CV交流群,與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度?等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流!

          同時(shí)提供每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、干貨資訊匯總,行業(yè)技術(shù)交流。關(guān)注?極市平臺(tái)?公眾號(hào)?,回復(fù)?加群,立刻申請(qǐng)入群~

          來(lái)源|狗皮膏藥@知乎

          就自己的經(jīng)驗(yàn)總結(jié)一些準(zhǔn)備機(jī)器學(xué)習(xí)算法崗位求職的粗淺經(jīng)驗(yàn),簡(jiǎn)要地分享一下。一個(gè)完整的機(jī)器學(xué)習(xí)工程師的面試過(guò)程主要有以下這些環(huán)節(jié):自我介紹、項(xiàng)目介紹、算法推導(dǎo)和解釋、數(shù)據(jù)結(jié)構(gòu)與算法題(寫(xiě)代碼)。

          關(guān)于自我介紹,主要就是簡(jiǎn)單介紹下自己的教育背景,在校期間的研究方向和所做的項(xiàng)目以及在項(xiàng)目中所充當(dāng)?shù)慕巧鹊?,為之后的面試做個(gè)鋪墊,讓面試官?gòu)闹胁蹲近c(diǎn)來(lái)問(wèn)。

          項(xiàng)目介紹是最為重要的,這也是體現(xiàn)你綜合實(shí)力的地方,對(duì)項(xiàng)目背景、項(xiàng)目實(shí)現(xiàn)的方案,項(xiàng)目所實(shí)現(xiàn)的東西都要了如指掌,做機(jī)器學(xué)習(xí)的,必然需要準(zhǔn)備一到兩個(gè)重點(diǎn)的機(jī)器學(xué)習(xí)項(xiàng)目,可以是比賽,也可以是實(shí)驗(yàn)室項(xiàng)目,關(guān)鍵是項(xiàng)目中間的技術(shù)細(xì)節(jié)都要了如指掌,比如你用了樹(shù)模型,就得知道所有樹(shù)模型相關(guān)的推導(dǎo)和原理,決不能含糊,一旦你說(shuō)不太清楚,面試官就會(huì)對(duì)項(xiàng)目的真實(shí)性存疑。參加比賽應(yīng)該是沒(méi)有實(shí)驗(yàn)室項(xiàng)目的同學(xué)最佳的積累經(jīng)驗(yàn)的途徑,比較好的比賽平臺(tái)有Kaggle、天池大數(shù)據(jù)、datacastle等

          接下來(lái)就是機(jī)器學(xué)習(xí)算法原理和推導(dǎo),這也是要重點(diǎn)去準(zhǔn)備的,在面試前得達(dá)到,給你一張白紙,你可以把推導(dǎo)的每一步寫(xiě)的清清楚楚的,推導(dǎo)的話面試常考邏輯回歸和SVM的推導(dǎo),關(guān)于原理面試官常會(huì)問(wèn)你幾個(gè)樹(shù)模型之間的對(duì)比等等等,其他的算法比如LR、SVM、EM、Adaboost、PageRank、 FFM、決策樹(shù),隨機(jī)森林, GBDT , XGBoost 、推薦算法、聚類(lèi)、CNN、RNN、LSTM、Word2Vec等等,以及他們的適用場(chǎng)景,再如一些機(jī)器學(xué)習(xí)的理論,非平衡問(wèn)題、過(guò)擬合問(wèn)題,交叉驗(yàn)證問(wèn)題,模型選擇問(wèn)題,模型融合問(wèn)題。這一部分我會(huì)在文末貼出一個(gè)問(wèn)題集錦,大家按照這個(gè)去準(zhǔn)備就行。還有必看的書(shū)李航的《統(tǒng)計(jì)學(xué)習(xí)方法》、周志華的《機(jī)器學(xué)習(xí)》、項(xiàng)亮的《推薦系統(tǒng)實(shí)踐》

          最后就是寫(xiě)代碼了,很多非計(jì)算機(jī)出身的大都會(huì)栽在這個(gè)地方,代碼寫(xiě)得少,訓(xùn)練不到位,就會(huì)導(dǎo)致當(dāng)場(chǎng)思路不清晰,不知從哪寫(xiě)起,但目前市面上已經(jīng)有很多專門(mén)為這塊總結(jié)的一些書(shū)籍,推薦使用《劍指offer》、《王道程序員求職寶典》等等,有時(shí)間的話再刷一下leetcode。排序算法、查找算法、二叉樹(shù)遍歷這些最基本的一定要很順溜的寫(xiě)下來(lái),其他的就看自己去拓展了。

          至于進(jìn)入互聯(lián)網(wǎng)公司之后,算法工程師或者數(shù)據(jù)挖掘工程師的工作內(nèi)容有哪些呢?大部分的同學(xué)就是在跑數(shù)據(jù),各種MapReduce,Hive SQL,數(shù)據(jù)倉(cāng)庫(kù)搬磚,然后進(jìn)行很耗費(fèi)時(shí)間的數(shù)據(jù)清洗,對(duì)業(yè)務(wù)進(jìn)行分析,對(duì)案例進(jìn)行分析,不斷的找特征,再丟到模型里面。大部分的與業(yè)務(wù)結(jié)合緊密的模型的算法優(yōu)化都是有足夠業(yè)務(wù)經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家在做,而沒(méi)有經(jīng)驗(yàn)的應(yīng)屆生需要慢慢培養(yǎng)對(duì)業(yè)務(wù)的敏感度和對(duì)數(shù)據(jù)的認(rèn)知,這也是稱為數(shù)據(jù)科學(xué)家必需的技能。

          以下是我總結(jié)出來(lái)的在算法崗面試過(guò)程中可能會(huì)遇到的問(wèn)題,都分門(mén)別類(lèi)的按照算法排列好了,大家可以在系統(tǒng)地梳理了一遍算法之后對(duì)問(wèn)題進(jìn)行排查,爭(zhēng)取每個(gè)問(wèn)題都可以答得上來(lái),當(dāng)然針對(duì)自己項(xiàng)目里的遇到的算法,就更需要熟悉掌握了。

          此外,在準(zhǔn)備面試的過(guò)程中,我自己總結(jié)了幾個(gè)系列的筆記,【機(jī)器學(xué)習(xí)系列】【數(shù)據(jù)結(jié)構(gòu)與算法】【自然語(yǔ)言處理】【深度學(xué)習(xí)】【數(shù)據(jù)分析】等,大家可以直接訪問(wèn)個(gè)人博客:http://plushunter.github.io

          • SVM:

            • 簡(jiǎn)單介紹SVM(詳細(xì)原理):從分類(lèi)平面,到求兩類(lèi)間的最大間隔,到轉(zhuǎn)化為求間隔分之一,等優(yōu)化問(wèn)題,然后就是優(yōu)化問(wèn)題的解決辦法,首先是用拉格拉日乘子把約束優(yōu)化轉(zhuǎn)化為無(wú)約束優(yōu)化,對(duì)各個(gè)變量求導(dǎo)令其為零,得到的式子帶入拉格朗日式子從而轉(zhuǎn)化為對(duì)偶問(wèn)題, 最后再利用SMO(序列最小優(yōu)化)來(lái)解決這個(gè)對(duì)偶問(wèn)題。svm里面的c有啥用
            • SVM的推導(dǎo),解釋原問(wèn)題和對(duì)偶問(wèn)題,SVM原問(wèn)題和對(duì)偶問(wèn)題的關(guān)系,KKT限制條件,KKT條件用哪些,完整描述;軟間隔問(wèn)題,解釋支持向量、核函數(shù)(哪個(gè)地方引入、畫(huà)圖解釋高維映射,高斯核可以升到多少維,如何選擇核函數(shù)),引入拉格朗日的優(yōu)化方法的原因,最大的特點(diǎn),損失函數(shù)解釋,
            • SVM與LR最大區(qū)別,LR和SVM對(duì)于outlier的敏感程度分析,邏輯回歸與SVM的區(qū)別
            • 為什么要把原問(wèn)題轉(zhuǎn)換為對(duì)偶問(wèn)題?因?yàn)樵瓎?wèn)題是凸二次規(guī)劃問(wèn)題,轉(zhuǎn)換為對(duì)偶問(wèn)題更加高效。為什么求解對(duì)偶問(wèn)題更加高效?因?yàn)橹挥们蠼鈇lpha系數(shù),而alpha系數(shù)只有支持向量才非0,其他全部為0.alpha系數(shù)有多少個(gè)?樣本點(diǎn)的個(gè)數(shù)
            • 加大訓(xùn)練數(shù)據(jù)量一定能提高SVM準(zhǔn)確率嗎?
            • 與感知器的聯(lián)系和優(yōu)缺點(diǎn)比較
            • 如何解決多分類(lèi)問(wèn)題、可以做回歸嗎,怎么做
            • 它與其他分類(lèi)器對(duì)比的優(yōu)缺點(diǎn),它的速度
            • 機(jī)器學(xué)習(xí)有很多關(guān)于核函數(shù)的說(shuō)法,核函數(shù)的定義和作用是什么?https://www.zhihu.com/question/24627666
            • 支持向量機(jī)(SVM)是否適合大規(guī)模數(shù)據(jù)?https://www.zhihu.com/question/19591450
            • SVM和邏輯斯特回歸對(duì)同一樣本A進(jìn)行訓(xùn)練,如果某類(lèi)中增加一些數(shù)據(jù)點(diǎn),那么原來(lái)的決策邊界分別會(huì)怎么變化?https://www.zhihu.com/question/30123068
            • 各種機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景分別是什么?例如,k近鄰,貝葉斯,決策樹(shù),svm,邏輯斯蒂回歸和最大熵模型。https://www.zhihu.com/question/26726794
            • Linear SVM 和 LR 有什么異同?https://www.zhihu.com/question/26768865
          • LR

            • LR推導(dǎo)(伯努利過(guò)程,極大似然,損失函數(shù),梯度下降)有沒(méi)有最優(yōu)解?
            • LR可以用核么?可以怎么用?l1和l2正則項(xiàng)是啥?lr加l1還是l2好?加哪個(gè)可以用核(加l2正則項(xiàng),和svm類(lèi)似,加l2正則項(xiàng)可以用核方便處理)
            • LR可以用來(lái)處理非線性問(wèn)題么?(還是lr啊 只不過(guò)是加了核的lr 這里加核是顯式地把特征映射到高維 然后再做lr)怎么做?可以像SVM那樣么?為什么?
            • 為什么LR需要?dú)w一化或者取對(duì)數(shù),為什么LR把特征離散化后效果更好,為什么把特征組合之后還能提升,反正這些基本都是增強(qiáng)了特征的表達(dá)能力,或者說(shuō)更容易線性可分吧
            • 美團(tuán)技術(shù)團(tuán)隊(duì)《Logistic Regression 模型簡(jiǎn)介》https://tech.meituan.com/intro_to_logistic_regression.html
            • SVM和logistic回歸分別在什么情況下使用?https://www.zhihu.com/question/21704547
            • 邏輯斯蒂回歸能否解決非線性分類(lèi)問(wèn)題?https://www.zhihu.com/question/29385169
            • 為什么LR可以用來(lái)做CTR預(yù)估?https://www.zhihu.com/question/23652394
            • 邏輯回歸估計(jì)參數(shù)時(shí)的目標(biāo)函數(shù) (就是極大似然估計(jì)那部分),邏輯回歸估計(jì)參數(shù)時(shí)的目標(biāo)函數(shù) (呵呵,第二次) 邏輯回歸估計(jì)參數(shù)時(shí)的目標(biāo)函數(shù) 如果加上一個(gè)先驗(yàn)的服從高斯分布的假設(shè),會(huì)是什么樣(天啦。我不知道,其實(shí)就是在后面乘一個(gè)東西,取log后就變成加一個(gè)東西,實(shí)際就變成一個(gè)正則項(xiàng))
            • 邏輯回歸估計(jì)參數(shù)時(shí)的目標(biāo)函數(shù)邏輯回歸的值表示概率嗎?(值越大可能性越高,但不能說(shuō)是概率)
            • 手推邏輯回歸目標(biāo)函數(shù),正類(lèi)是1,反類(lèi)是-1,這里挖了個(gè)小坑,一般都是正例是1,反例是0的,他寫(xiě)的時(shí)候我就注意到這個(gè)坑了,然而寫(xiě)的太快又給忘了,衰,后來(lái)他提醒了一下,改了過(guò)來(lái),就是極大似然函數(shù)的指數(shù)不一樣,然后說(shuō)我這里的面試就到這了。
            • 看沒(méi)看過(guò)scikit-learn源碼LR的實(shí)現(xiàn)?(回頭看了一下是調(diào)用的liblinear,囧)
            • 為什么LR需要?dú)w一化或者取對(duì)數(shù),為什么LR把特征離散化后效果更好,為什么把特征組合之后還能提升,反正這些基本都是增強(qiáng)了特征的表達(dá)能力,或者說(shuō)更容易線性可分吧
            • naive bayes和logistic regression的區(qū)別http://m.blog.csdn.net/blog/muye5/19409615
            • LR為什么用sigmoid函數(shù)。這個(gè)函數(shù)有什么優(yōu)點(diǎn)和缺點(diǎn)?為什么不用其他函數(shù)?sigmoid函數(shù)由那個(gè)指數(shù)族分布,加上二項(xiàng)分布導(dǎo)出來(lái)的。損失函數(shù)是由最大似然估計(jì)求出的。
            • 了解其他的分類(lèi)模型嗎,問(wèn)LR缺點(diǎn),LR怎么推導(dǎo)(當(dāng)時(shí)我真沒(méi)準(zhǔn)備好,寫(xiě)不出來(lái))寫(xiě)LR目標(biāo)函數(shù),目標(biāo)函數(shù)怎么求最優(yōu)解(也不會(huì))講講LR的梯度下降,梯度下降有哪幾種,邏輯函數(shù)是啥
          • L1和L2

            • L2正則化,為什么L2正則化可以防止過(guò)擬合?L1正則化是啥?
            • 深度學(xué)習(xí)里面怎么防止過(guò)擬合?(data aug;dropout;multi-task learning)如何防止過(guò)擬合,我跟他列舉了4中主要防止過(guò)擬合方法:Early Stopping、數(shù)據(jù)集擴(kuò)充、正則化法以及dropout,還詳細(xì)跟他說(shuō)了每種方法原理及使用的場(chǎng)景,并解釋我在哪些項(xiàng)目里具體用到了這些方法,
            • 機(jī)器學(xué)習(xí)中使用「正則化來(lái)防止過(guò)擬合」到底是一個(gè)什么原理?為什么正則化項(xiàng)就可以防止過(guò)擬合?https://www.zhihu.com/question/20700829
            • 機(jī)器學(xué)習(xí)中常常提到的正則化到底是什么意思?https://www.zhihu.com/question/20924039
            • 什么是正則項(xiàng),L1范式,L2范式區(qū)別是什么,各自用在什么地方?L1 與 L2 的區(qū)別以及如何解決 L1 求導(dǎo)困難;
            • L1正則為什么能讓系數(shù)變?yōu)??L1正則怎么處理0點(diǎn)不可導(dǎo)的情形?(這個(gè)誰(shuí)會(huì)?近端梯度下降)
            • L0,L1,L2正則化(如果能推導(dǎo)絕對(duì)是加分項(xiàng),一般人最多能畫(huà)個(gè)等高線,L0是NP問(wèn)題)其實(shí)上面的這些問(wèn)題基本都能在《李航:統(tǒng)計(jì)學(xué)習(xí)方法》《周志華:機(jī)器學(xué)習(xí)》里面找到,能翻個(gè)4,5遍基本就無(wú)壓力了
            • 避免過(guò)擬合策略、如何提高模型泛化能力、L1與L2正則區(qū)別,優(yōu)缺點(diǎn)、生成式,判別式模型、深度學(xué)習(xí)這塊了解多少、
            • 如何克服過(guò)擬合,欠擬合
            • L1 與 L2 的區(qū)別以及如何解決 L1 求導(dǎo)困難;
            • L1正則為什么可以把系數(shù)壓縮成0,坐標(biāo)下降法的具體實(shí)現(xiàn)細(xì)節(jié)
            • 為什么L1正則可以實(shí)現(xiàn)參數(shù)稀疏,而L2正則不可以?為什么L1很多系數(shù)可以被壓縮為0,L2是被壓縮至接近于0?
          • 樹(shù)模型

            • rf , gbdt 的區(qū)別;gbdt , xgboost 的區(qū)別(爛大街的問(wèn)題最好從底層原理去分析回答)
            • 介紹決策樹(shù),談了3種決策樹(shù)及其區(qū)別和適應(yīng)場(chǎng)景
            • 決策樹(shù)處理連續(xù)值的方法;簡(jiǎn)單介紹決策樹(shù)幾種算法,有什么區(qū)別?
            • 決策樹(shù)基本模型介紹?決策樹(shù)算法中缺失值怎么處理?決策樹(shù)算法在應(yīng)用中有什么值得注意的地方。SVM、LR、決策樹(shù)的對(duì)比?GBDT 和 決策森林 的區(qū)別?決策樹(shù)的特性?(3 )決策樹(shù)處理連續(xù)值的方法;
            • 解釋下隨機(jī)森林和gbdt的區(qū)別。gbdt的boosting體現(xiàn)在哪里。解釋下隨機(jī)森林節(jié)點(diǎn)的分裂策略,以及它和gbdt做分類(lèi)有什么區(qū)別?哪個(gè)效果更好些?為什么?哪個(gè)更容易過(guò)擬合?為什么?問(wèn)了隨機(jī)森林的損失函數(shù),和lr的優(yōu)缺點(diǎn)對(duì)比, adaboost和隨機(jī)森林的比較,為了防止隨機(jī)森林過(guò)擬合可以怎么做,是否用過(guò)隨機(jī)森林,怎么用的。
            • 隨機(jī)森林和GBDT的區(qū)別?CART(回歸樹(shù)用平方誤差最小化準(zhǔn)則,分類(lèi)樹(shù)用基尼指數(shù)最小化準(zhǔn)則)
            • GBDT(利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值作為回歸問(wèn)題提升樹(shù)算法中的殘差的近似值,擬合一個(gè)回歸樹(shù))
            • 隨機(jī)森林(Bagging+CART)
            • SVM與隨機(jī)森林比較
            • 改變隨機(jī)森林的訓(xùn)練樣本數(shù)據(jù)量,是否會(huì)影響到隨機(jī)森林學(xué)習(xí)到的模型的復(fù)雜度
            • Logistics與隨機(jī)森林比較
            • GBDT與隨機(jī)森林比較隨機(jī)森林的學(xué)習(xí)過(guò)程;隨機(jī)森林中的每一棵樹(shù)是如何學(xué)習(xí)的;隨機(jī)森林學(xué)習(xí)算法中CART樹(shù)的基尼指數(shù)是什么?
            • RF 與 GBDT 區(qū)別,原理優(yōu)缺點(diǎn)適用場(chǎng)景分析,哪個(gè)具備交叉驗(yàn)證功能等
            • 接著寫(xiě)一下信息增益的公式。之后就是問(wèn)機(jī)器學(xué)習(xí)相關(guān)算法,說(shuō)了一下bagging跟boosting,之后問(wèn)了GBDT(沒(méi)做過(guò),只能說(shuō)說(shuō)大體思路)。(2 ) rf , gbdt 的區(qū)別;gbdt , xgboost 的區(qū)別;
            • 說(shuō)說(shuō)xgboost、gbdt區(qū)別、Tree-based Model如何處理連續(xù)型特征。
            • 讓我把一個(gè)完整的數(shù)據(jù)挖掘流程講一下,從預(yù)處理,特征工程,到模型融合。介紹常用的算法,gbdt和xgboost區(qū)別,具體怎么做預(yù)處理,特征工程,模型融合常用方式,融合一定會(huì)提升嗎?
            • gbdt樹(shù)根據(jù)什么分裂(瞎扯的梯度近似殘差、梯度下降方向,其實(shí)還是信息增益這種東西)
            • gbdt怎么并發(fā)(特征選擇層面,樹(shù)層面不能并發(fā))
            • 介紹LR、RF、GBDT ,分析它們的優(yōu)缺點(diǎn),是否寫(xiě)過(guò)它們的分布式代碼
            • XGB和GBDT區(qū)別與聯(lián)系也會(huì)經(jīng)常問(wèn)到:https://www.zhihu.com/question/41354392/answer/128008021?group_id=773629156532445184
            • CART(回歸樹(shù)用平方誤差最小化準(zhǔn)則,分類(lèi)樹(shù)用基尼指數(shù)最小化準(zhǔn)則)、Logistics(推導(dǎo))、GBDT(利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值作為回歸問(wèn)題提升樹(shù)算法中的殘差的近似值,擬合一個(gè)回歸樹(shù))
            • 在面試過(guò)程中主動(dòng)引導(dǎo)面試官提問(wèn),比如面試官讓你講解 gbdt 原理時(shí),這會(huì)你可以跟他說(shuō),一般說(shuō)起 gbdt ,我們都會(huì)跟 rf 以及 xgboost 一塊講,然后你就可以主動(dòng)地向面試官輸出你的知識(shí);面試并不是死板地你問(wèn)我答,而是一種溝通交流,所以盡可能地把面試轉(zhuǎn)化成聊天式的對(duì)話,多輸出自己一些有價(jià)值的觀點(diǎn)而不是僅僅為了回答面試官的問(wèn)題;
            • 幾種樹(shù)模型的原理和對(duì)比,
            • 特征選取怎么選?為什么信息增益可以用來(lái)選特征?
            • 信息熵和基尼指數(shù)的關(guān)系(信息熵在x=1處一階泰勒展開(kāi)就是基尼指數(shù))
            • 介紹xgboost一下。寫(xiě)下xgboost目標(biāo)函數(shù)。(因?yàn)槲姨岬絰gboost在目標(biāo)函數(shù)里顯式地加入了正則項(xiàng)..血雪崩)怎么調(diào)整XGB參數(shù);xgboost原理
          • K-means

            • k-means 聚類(lèi)的原理以及缺點(diǎn)及對(duì)應(yīng)的改進(jìn);kmeans 算法的優(yōu)缺點(diǎn)。。。。
            • kmeans 的原理,優(yōu)缺點(diǎn)以及改進(jìn);
            • em 與 kmeans 的關(guān)系;
            • kmeans 代碼;
            • 說(shuō)說(shuō) Kmeans 算法, Kmeans 算法 K 怎么設(shè)置、適用什么樣數(shù)據(jù)集、怎么評(píng)價(jià) Kmeans 聚類(lèi)結(jié)果、 Kmeans 有什么優(yōu)缺點(diǎn)?你的項(xiàng)目中使用 Kmeans 遇到哪些問(wèn)題,怎么解決的 ?
            • 用 EM 算法推導(dǎo)解釋 Kmeans。
            • KMeans的算法偽代碼
            • 如何判斷自己實(shí)現(xiàn)的 LR、Kmeans 算法是否正確?
            • 如何優(yōu)化kmeans算法
            • 如何用hadoop實(shí)現(xiàn)k-means
            • 手寫(xiě)k-means的偽代碼(就6行)
          • 集成學(xué)習(xí)

            • bagging和boosting是怎么做的和他們的比較
            • 詳細(xì)討論了樣本采樣和bagging的問(wèn)題
            • 聊的比較多的是如何知道一個(gè)特征的重要性,如何做ensemble哪些方法比較好。聊了聊計(jì)算廣告方面FM,embedding。
            • 常見(jiàn)融合框架原理,優(yōu)缺點(diǎn),bagging,stacking,boosting,為什么融合能提升效果
            • 是否了解線性加權(quán)、bagging、boosting、cascade等模型融合方式
            • K-means起始點(diǎn)http://www.cnki.com.cn/Article/CJFDTotal-DNZS200832067.htm
          • 貝葉斯

            • 樸素貝葉斯分類(lèi)器原理以及公式,出現(xiàn)估計(jì)概率值為 0 怎么處理(拉普拉斯平滑),缺點(diǎn);
            • 解釋貝葉斯公式和樸素貝葉斯分類(lèi)。
            • 貝葉斯分類(lèi),這是一類(lèi)分類(lèi)方法,主要代表是樸素貝葉斯,樸素貝葉斯的原理,重點(diǎn)在假設(shè)各個(gè)屬性類(lèi)條件獨(dú)立。然后能根據(jù)貝葉斯公式具體推導(dǎo)??疾旖o你一個(gè)問(wèn)題,如何利用樸素貝葉斯分類(lèi)去分類(lèi),比如:給你一個(gè)人的特征,判斷是男是女,比如身高,體重,頭發(fā)長(zhǎng)度等特征的的數(shù)據(jù),那么你要能推到這個(gè)過(guò)程。給出最后的分類(lèi)器公式。
            • 那你說(shuō)說(shuō)貝葉斯怎么分類(lèi)???比如說(shuō)看看今天天氣怎么樣?我:blabla,,,利用天氣的歷史數(shù)據(jù),可以知道天氣類(lèi)型的先驗(yàn)分布,以及每種類(lèi)型下特征數(shù)據(jù)(比如天氣數(shù)據(jù)的特征:溫度啊,濕度?。┑臈l件分布,這樣我們根據(jù)貝葉斯公式就能求得天氣類(lèi)型的后驗(yàn)分布了。。。。面試官:en(估計(jì)也比較滿意吧)那你了解關(guān)于求解模型的優(yōu)化方法嗎?一般用什么優(yōu)化方法來(lái)解?
            • 貝葉斯分類(lèi)器的優(yōu)化和特殊情況的處理
          • 深度學(xué)習(xí)

            • 解釋一下CNN、介紹CNN、卷積公式,以及特點(diǎn),假設(shè)面試官什么都不懂,詳細(xì)解釋 CNN 的原理;問(wèn)CNN的細(xì)節(jié)特點(diǎn),哪些特點(diǎn)使得CNN這么好用,哪些場(chǎng)景用CNN可以,抽象一下這些場(chǎng)景的特征,可以降采樣但仍能保持主要信息;為什么CNN要用權(quán)值共享?(每個(gè)卷積核相當(dāng)于一個(gè)特征提取器,它的任務(wù)是匹配局部圖像中的特征,權(quán)值共享后,匹配的特征方式都是一樣的,提取若干特征后就知道學(xué)習(xí)的是啥了)
            • 局部連接可以保證獲取局部信息;權(quán)值共享保證高效,DNN和CNN相比有哪些區(qū)別,用過(guò)RNN么?畫(huà)一下RNN的圖,你在深度學(xué)習(xí)過(guò)程中遇到過(guò)哪些問(wèn)題?如果出現(xiàn)過(guò)擬合你怎么辦?
            • dropout是什么?它有什么用?你會(huì)怎么用它?當(dāng)全連接跟dropout連著用需要注意什么?你之前過(guò)擬合怎么解決的?如果本身training loss就很大你怎么辦?如果數(shù)據(jù)不變,怎么調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)解決這個(gè)問(wèn)題?dropout內(nèi)部是怎么實(shí)現(xiàn)只讓部分信號(hào)通過(guò)并不更新其余部分對(duì)于輸入的權(quán)值的?
            • 梯度消失知道么?為什么會(huì)出現(xiàn)梯度消失?dnn和rnn中的梯度消失原理一樣么?dnn中是哪個(gè)部分導(dǎo)致梯度消失?(激活層如sigmoid)rnn中怎么解決梯度消失問(wèn)題?(lstm的結(jié)構(gòu)相對(duì)普通RNN多了加和,為避免梯度消散提供了可能。線性自連接的memory是關(guān)鍵。)
            • 給定一個(gè)輸入,算輸出的feature map大小。卷積有啥用?池化有啥用?有哪些池化方式?池化除了降采樣還有啥用?還有哪些層你用過(guò)?
            • 講講BN(BatchNormalization)為什么好?全連接有什么用處?知道RNN么?講講RNN大致的實(shí)現(xiàn)思路。
            • 細(xì)講下lstm的結(jié)構(gòu),這樣設(shè)計(jì)為什么好?(門(mén)關(guān)閉,當(dāng)前信息不需要,只有歷史依賴;門(mén)打開(kāi),歷史和當(dāng)前加權(quán)平均)
            • 你覺(jué)得梯度消失靠引入一些新的激活層可以完全解決么?為什么?
            • 問(wèn)了做的比賽里面使用tensorflow的細(xì)節(jié),LSTM里調(diào)參的細(xì)節(jié)
            • 用過(guò)哪些庫(kù)或者工具,mkl,cuda這些會(huì)用嗎?
            • 有一個(gè)弱分類(lèi)器和大量未被標(biāo)記過(guò)的圖像數(shù)據(jù),如何人工標(biāo)記圖像來(lái)對(duì)分類(lèi)器進(jìn)行提升
            • 介紹下RNN和它的優(yōu)缺點(diǎn)
            • 讓我推導(dǎo)BP反向傳播、隨機(jī)梯度下降法權(quán)重更新公式
            • 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)、各參數(shù)對(duì)模型結(jié)果影響、項(xiàng)目進(jìn)展遇到的難題、推導(dǎo)BP神經(jīng)網(wǎng)絡(luò)參數(shù)更新方式、隨機(jī)梯度下降法(SGD)優(yōu)化函數(shù)存在的缺點(diǎn)以及擬牛頓法在優(yōu)化函數(shù)使用上更有優(yōu)勢(shì)、修改Caffe開(kāi)源框架、開(kāi)源社區(qū)代碼貢獻(xiàn)量、行業(yè)發(fā)展趨勢(shì)及問(wèn)題,知道目前深度學(xué)習(xí)的一個(gè)趨勢(shì),也了解到最新行業(yè)發(fā)展動(dòng)態(tài),改進(jìn)相機(jī)智能化程度,也聊到了美顏相機(jī)美顏效果以及小米相機(jī)人臉?lè)诸?lèi)、年齡檢測(cè)等等不足之處,了解到新興行業(yè)大佬商湯科技和曠視科技(face++臉草)在研究的熱門(mén)方向
            • 如何減少參數(shù)(權(quán)值共享、VGG的感受野、GoogLeNet的inception ),激活函數(shù)的選擇(sigmoid->ReLu->LReLU->PReLU ),為什么之前沒(méi)有深度網(wǎng)絡(luò)出現(xiàn)(數(shù)據(jù)量不夠+機(jī)器性能),由數(shù)據(jù)引申到數(shù)據(jù)不平衡怎么處理(10W正例,1W負(fù)例,??蜕嫌性}),
            • DNN原理,應(yīng)用……
            • 圖像處理題:如何找相似圖片。我說(shuō)用感知哈希算法,計(jì)算漢明距離,他說(shuō)這種方法精度不行;我說(shuō)那就用SIFT算法吧,他說(shuō)SIFT效果還可以,但計(jì)算有點(diǎn)繁重,有沒(méi)有輕量級(jí)的方法?我想起來(lái)去年在美圖秀秀實(shí)習(xí)時(shí),曾經(jīng)做過(guò)一種圖像濾波算法,有一步是把像素點(diǎn)用K-means聚類(lèi)。我就說(shuō)先把圖片灰度化,然后用K-means聚類(lèi),把聚類(lèi)后的各個(gè)中心點(diǎn)作為一張圖片的特征向量如果兩張圖片的特征向量相近則說(shuō)明這兩張圖片相似。貌似我這個(gè)答案有點(diǎn)出乎他的意料,他意味深長(zhǎng)地說(shuō)了個(gè)“行吧~~~~”(個(gè)人覺(jué)得顏色直方圖匹配是個(gè)他期待的常規(guī)回答)
            • 介紹卷積神經(jīng)網(wǎng)絡(luò),和 DBN 有什么區(qū)別?
            • Deep CNN, Deep RNN, RBM的典型應(yīng)用與局限,看Hinton講義和Paper去吧
            • 神經(jīng)網(wǎng)絡(luò),plsi的推導(dǎo)
            • 驗(yàn)證碼圖片的去噪和提取字符
            • 有限狀態(tài)自動(dòng)機(jī),然后要我畫(huà)狀態(tài)轉(zhuǎn)移圖.
          • 聚類(lèi)

            • 用過(guò)哪些聚類(lèi)算法,解釋密度聚類(lèi)算法。
            • 聚類(lèi)算法中的距離度量有哪些?
          • 優(yōu)化

            • 梯度下降的優(yōu)缺點(diǎn);主要問(wèn)最優(yōu)化方面的知識(shí),梯度下降法的原理以及各個(gè)變種(批量梯度下降,隨機(jī)梯度下降法, mini 梯度下降法),以及這幾個(gè)方法會(huì)不會(huì)有局部最優(yōu)問(wèn)題,牛頓法原理和適用場(chǎng)景,有什么缺點(diǎn),如何改進(jìn)(擬牛頓法)
            • 常用優(yōu)化算法:1.梯度下降法:又有隨機(jī)梯度下降和負(fù)梯度下降,2.牛頓法 主要是問(wèn)了各自的優(yōu)缺點(diǎn),速度,能不能得到全局最優(yōu)解,牛頓法的二次收斂等
            • 問(wèn)你如果有若干個(gè)極小值點(diǎn),如何避免陷入局部最優(yōu)解。
            • 它們間的牛頓學(xué)習(xí)法、SGD如何訓(xùn)練,
            • 如何判斷函數(shù)凸或非凸?
            • 線性回歸的梯度下降和牛頓法求解公式的推導(dǎo)
            • 最速下降法和共軛梯度法 wolfe條件 最速下降法和共軛梯度法的收斂速度如何判斷
            • 深刻理解常用的優(yōu)化方法:梯度下降、牛頓法、各種隨機(jī)搜索算法(基因、蟻群等等),深刻理解的意思是你要知道梯度下降是用平面來(lái)逼近局部,牛頓法是用曲面逼近局部等等。
          • 推薦系統(tǒng)

            • 介紹SVD、SVD++
            • 推薦系統(tǒng)的冷啟動(dòng)問(wèn)題如何解決
            • 深度學(xué)習(xí)在推薦系統(tǒng)上可能有怎樣的發(fā)揮?
            • 推薦系統(tǒng)的算法中最近鄰和矩陣分解各自適用場(chǎng)景
            • 白板寫(xiě)SVD/SVD++公式,SGD迭代更新p,q矩陣公式,SVD/SVD++優(yōu)化方法
            • 對(duì)推薦算法的未來(lái)看法;
            • 用過(guò)什么算法?最好是在項(xiàng)目/實(shí)習(xí)的大數(shù)據(jù)場(chǎng)景里用過(guò),比如推薦里用過(guò) CF、LR,
            • 我面的推薦,問(wèn)了各類(lèi)協(xié)同過(guò)濾的好與壞。
            • 問(wèn)了一個(gè)很有意思的問(wèn)題,現(xiàn)實(shí)應(yīng)用中的Top-N推薦問(wèn)題和學(xué)術(shù)研究中的評(píng)分預(yù)測(cè)問(wèn)題之間有什么不同。問(wèn)我ItemCF的工程實(shí)現(xiàn),面對(duì)大數(shù)據(jù)如何實(shí)現(xiàn),又追問(wèn)了有沒(méi)有什么工程優(yōu)化算法。這個(gè)問(wèn)題我沒(méi)答好,一開(kāi)始我說(shuō)了一個(gè)MapReduce模型,他問(wèn)能不能更快一點(diǎn),我就卡那了。。。最后面試官告訴我,不能只從算法角度分析,要從系統(tǒng)設(shè)計(jì)分析,利用內(nèi)存來(lái)減小MapReduce的吞吐量。(當(dāng)然也許從MapReduce那一刻開(kāi)始我就輸了也不一定)
            • 推薦系統(tǒng)的算法中最近鄰和矩陣分解各自適用場(chǎng)景http://www.doc88.com/p-3961053026557.html
          • PCA

            • 那你對(duì)pca了解嗎?我:了解啊,面試官:那講一下pca是用***嘛的?我:pca啊,可以用來(lái)分析主方向啊,降維啊,特征篩選啊,具體方法是用svd分解得到特征值矩陣和特征向量矩陣,然后根據(jù)不同的任務(wù)對(duì)選擇特征值或向量進(jìn)行計(jì)算。
          • EM

            • 采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?
          • NLP

            • 用過(guò)哪些 NLP 算法項(xiàng)目中用過(guò)哪些機(jī)器學(xué)習(xí)算法。
            • 海量的 item 算文本相似度的優(yōu)化方法;
            • 解釋 word2vec 的原理以及哈夫曼樹(shù)的改進(jìn);word2vec的原理
            • 二面面試官主要跟我聊簡(jiǎn)歷上的幾個(gè)項(xiàng)目,他好像不能理解詞向量的形式,反復(fù)解釋了很多遍,問(wèn)的問(wèn)題都比較簡(jiǎn)單,有TF-IDF,余弦相似度,分詞工具等等。
            • 然后我說(shuō)我做過(guò)LDA,問(wèn)我,Dirichlet Distribution的定義和性質(zhì),并問(wèn)我,為什么它和multinomial distribution是共軛的,順便問(wèn)了我啥叫共軛分布。
          • 關(guān)聯(lián)分析:

            • 項(xiàng)目中涉及到頻繁模式挖掘,于是問(wèn)了一下如何實(shí)現(xiàn)的?用的是 Apriori算法,描述他的原理過(guò)程,關(guān)鍵字眼:支持度,支持度計(jì)數(shù),k項(xiàng)候選頻繁項(xiàng)集,怎么從k項(xiàng)到k+1項(xiàng)等,連接剪枝過(guò)程。
          • hadoop

            • 簡(jiǎn)單介紹 MapReduce 原理,有沒(méi)有看過(guò)源碼,說(shuō)說(shuō) Map 階段怎么實(shí)現(xiàn)的,
            • MapReduce 實(shí)現(xiàn)統(tǒng)計(jì)出現(xiàn)次數(shù)最多的前 100 個(gè)訪問(wèn) IP.
            • MapReduce 實(shí)現(xiàn)統(tǒng)計(jì)不重復(fù)用戶 ID,MapReduce 實(shí)現(xiàn)兩個(gè)數(shù)據(jù)集求交集。
            • HBase 行健怎么設(shè)計(jì),spark 性能一般優(yōu)化方法,spark streaming 和 storm 區(qū)別.給了一張筆試題, 10 道選擇,一道大題。選擇題是 java 基礎(chǔ)知識(shí),大題一個(gè)有三問(wèn):根據(jù)場(chǎng)景寫(xiě)出 Hive 建表語(yǔ)句;Hsql 從表中查詢;
            • 用MapReduce寫(xiě)好友推薦,在一堆單詞里面找出現(xiàn)次數(shù)最多的k個(gè)
            • 用分布式的方法做采樣怎么保證采樣結(jié)果完全符合預(yù)期?
            • 后面又問(wèn)了Hadoop,Spark,storm下面的產(chǎn)品,原理,適用場(chǎng)景,
            • 寫(xiě)一個(gè) Hadoop 版本的 wordcount。
          • HMM

            • 實(shí)現(xiàn) hmm 的狀態(tài)轉(zhuǎn)移代碼;
          • 機(jī)器學(xué)習(xí)理論

            • 講機(jī)器學(xué)習(xí)中常用的損失函數(shù)有哪些?交叉熵有什么好處?(凸優(yōu)化問(wèn)題)
            • 判別模型與生成模型的本質(zhì)區(qū)別是什么
            • 分類(lèi)模型和回歸模型的區(qū)別,分類(lèi)模型可以做回歸分析嗎?反過(guò)來(lái)可以嗎?(我回答是分類(lèi)不可以做回歸,回歸倒是可以做分類(lèi),不知道對(duì)不對(duì))
            • k折交叉驗(yàn)證 中k取值多少有什么關(guān)系 (我不知道,隨便答,然后面試官后面問(wèn)我知道bias和variance嗎?估計(jì)是和這兩個(gè)東西有關(guān), 知乎上有個(gè)問(wèn)題討論了k值大小與bias和variance的關(guān)系)
            • 解釋局部相關(guān)性
            • 特征選擇的方法;
            • 在模型的訓(xùn)練迭代中,怎么評(píng)估效果;
            • 特征選擇方法有哪些(能說(shuō)出來(lái)10種以上加分),之后和面試官仔細(xì)聊了一下特征選擇的問(wèn)題,我介紹了了解的幾種基本的特征選擇思路(錯(cuò)誤率選擇、基于熵的選擇、類(lèi)內(nèi)類(lèi)間距離的選擇);
            • 有沒(méi)有接觸過(guò)機(jī)器學(xué)習(xí)的前沿,深度學(xué)習(xí)看過(guò)paper沒(méi)有?(并沒(méi)有)
            • 如何用盡可能少的樣本訓(xùn)練模型同時(shí)又保證模型的性能;
            • 你讀哪些期刊會(huì)議的論文?你遇到的比較有意思的算法?
            • 生成模型,判別模型
            • 線性分類(lèi)和非線性分類(lèi)各有哪些模型
            • 比較各個(gè)模型的Loss function,
            • 設(shè)計(jì)一個(gè)結(jié)構(gòu)存取稀疏矩陣 (面試官最后告訴我了一個(gè)極度壓縮的存法,相同行或列存偏差,我當(dāng)時(shí)沒(méi)聽(tīng)懂,還不懂裝懂,最后還是沒(méi)記?。?/li>
            • PageRank原理,怎么用模型來(lái)查找異常用戶,我講了一大堆我的理解,然后面試官一句你怎么不用規(guī)則把我噎到了……
            • 無(wú)監(jiān)督和有監(jiān)督算法的區(qū)別?
            • 經(jīng)典算法推導(dǎo)(加分項(xiàng)),原理,各個(gè)損失函數(shù)之間區(qū)別,使用場(chǎng)景,如何并行化,有哪些關(guān)鍵參數(shù)
            • 什么叫判別模型什么叫生成模型。
            • 先針對(duì)項(xiàng)目十分細(xì)致地詢問(wèn)了各種細(xì)節(jié),然后就問(wèn)我如何處理數(shù)據(jù)中的噪聲點(diǎn)、數(shù)據(jù)清洗算法(正好自己做了一個(gè)算法)、如何選擇特征等。
            • 校招TST內(nèi)推,面過(guò)了2面,還是跟之前那個(gè)有點(diǎn)類(lèi)似的游戲開(kāi)發(fā)的安全部門(mén),因?yàn)槲乙餐鍸OL,又問(wèn)到怎么來(lái)判斷玩家有沒(méi)有作弊之類(lèi)的問(wèn)題,這次我小心翼翼的說(shuō)用模型怎么做,用規(guī)則怎么做,感覺(jué)這次聊的都挺開(kāi)心的。
            • 是否了解A/B Test以及A/B Test結(jié)果的置信度特征工程經(jīng)驗(yàn)是否了解mutual infomation、chi-square、LR前后向、樹(shù)模型等特征選擇方式
            • 深刻理解各種算法對(duì)應(yīng)采用的數(shù)據(jù)結(jié)構(gòu)和對(duì)應(yīng)的搜索方法。比如KNN對(duì)應(yīng)的KD樹(shù)、如何給圖結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)?如何將算法map-red化
            • 矩陣的各種變換,尤其是特征值相關(guān)的知識(shí)。分布式的矩陣向量乘的算法
            • 線性分類(lèi)器與非線性分類(lèi)器的區(qū)別及優(yōu)劣;特征比數(shù)據(jù)量還大時(shí),選擇什么樣的分類(lèi)器?對(duì)于維度很高的特征,你是選擇線性還是非線性分類(lèi)器?對(duì)于維度極低的特征,你是選擇線性還是非線性分類(lèi)器?如何解決過(guò)擬合問(wèn)題?L1和L2正則的區(qū)別,如何選擇L1和L2正則?
            • 項(xiàng)目中的數(shù)據(jù)是否會(huì)歸一化處理,哪個(gè)機(jī)器學(xué)習(xí)算法不需要?dú)w一化處理
            • 并行計(jì)算、壓縮算法LDA http://www.doc88.com/p-1621945750499.html
          • 場(chǎng)景題

          1. 百度IDL:無(wú)給定條件,預(yù)測(cè)蔬菜價(jià)格。提幾個(gè)特征做預(yù)測(cè)模型:肉的價(jià)格、土壤健康指標(biāo)、天氣情況、國(guó)民收入、貨幣匯率等等。。

          2. 網(wǎng)易游戲互娛:給三天時(shí)間,獲取全世界有多少人玩過(guò)德州撲克,只要玩過(guò)就算。直接爬蟲(chóng)德州撲克的app。(感覺(jué)這個(gè)答的好蠢。。)

          3. . 騰訊MIG:獲取聊天表情的標(biāo)簽,比如喜怒哀樂(lè)。對(duì)騰訊系產(chǎn)品的聊天記錄中,表情的上下文聊天文字做情感分析,然后給表情貼標(biāo)簽。

          4. 騰訊廣點(diǎn)通:給定某人的騰訊系產(chǎn)品信息,判斷此人是否有車(chē)。我說(shuō)先做一部分?jǐn)?shù)據(jù)標(biāo)注來(lái)判斷一部分人是否已經(jīng)有車(chē),然后提一些消費(fèi)水平的特征做預(yù)測(cè)模型

          5. 我回答地都很不好,一直覺(jué)得場(chǎng)景題不知道怎么回答,直到廣點(diǎn)通的面試官很nice地指出了我的問(wèn)題:我的方法成本高而且過(guò)于模糊,要求的是低成本、直接、精度高的方法,也就是人工規(guī)則。

          6. 類(lèi)似大眾點(diǎn)評(píng)的網(wǎng)站有正常用戶訪問(wèn)流量,也有同類(lèi)競(jìng)爭(zhēng)商家的spider,怎樣區(qū)分spider和正常訪問(wèn),我想了下,他說(shuō)簡(jiǎn)單說(shuō)說(shuō)就行,我就從兩者的訪問(wèn)特點(diǎn)分析了一下,對(duì)于這個(gè)二分類(lèi)問(wèn)題選用哪些特征,然后他希望再?gòu)模瑁簦簦鸬慕嵌确治鲆幌?,然而并不懂,然后照例?wèn)有什么問(wèn)題,然后詳細(xì)介紹了一下上海這邊主要負(fù)責(zé)滴滴租車(chē)業(yè)務(wù),業(yè)務(wù)框架,說(shuō)的很仔細(xì),

          7. 拼車(chē)軟件是如何定價(jià)的以及如何優(yōu)化;

          8. 怎么預(yù)測(cè)降雨量;

          9. 預(yù)測(cè)平臺(tái)每日外賣(mài)或到店客流量時(shí),節(jié)假日往往會(huì)被作為噪音處理,但是美團(tuán)點(diǎn)評(píng)算法團(tuán)隊(duì)需要給店家提供節(jié)假日的客流量預(yù)測(cè),如何去預(yù)測(cè)這個(gè)異常值或者說(shuō)噪音。

          10. 遇到極端情況比如天氣或者其他因素,平臺(tái)內(nèi)會(huì)擠壓大量訂單等待處理,同時(shí)客戶等待時(shí)間會(huì)變長(zhǎng),如何設(shè)計(jì)調(diào)度系統(tǒng)使用算法去協(xié)調(diào)運(yùn)力或者控制溢價(jià),在不影響用戶體驗(yàn)的同時(shí)盡快處理擠壓訂單盡可能縮短外賣(mài)小哥的ETA。

          11. 目前對(duì)于客流量預(yù)測(cè)精度為天很準(zhǔn)確,如何設(shè)計(jì)online learning的model去對(duì)未來(lái)某一個(gè)特定時(shí)間點(diǎn)進(jìn)行客流量預(yù)估。自己感覺(jué)這應(yīng)該都是美團(tuán)點(diǎn)評(píng)在真是業(yè)務(wù)場(chǎng)景中遇到的問(wèn)題,自己也根據(jù)自己的想法與面試官做了討論,突然在說(shuō)的一瞬間覺(jué)得這才是machine learning在工業(yè)界真實(shí)運(yùn)用的場(chǎng)景,突然覺(jué)得自己天天看的書(shū)推的公式好渺小...

          12. 開(kāi)放問(wèn)題:在車(chē)和乘客的匹配場(chǎng)景中(一個(gè)車(chē)匹配一個(gè)乘客,不考慮拼車(chē)),如何讓司機(jī)的接單率更高?

          14. 給你公司內(nèi)部群組的聊天記錄,怎樣區(qū)分出主管和員工?如何評(píng)估網(wǎng)站內(nèi)容的真實(shí)性(針對(duì)代刷、作弊類(lèi))?路段平均車(chē)速反映了路況,在道路上布控采集車(chē)輛速度,如何對(duì)路況做出合理估計(jì)?采集數(shù)據(jù)中的異常值如何處理?如何根據(jù)語(yǔ)料計(jì)算兩個(gè)詞詞義的相似度?在百度貼吧里發(fā)布 APP 廣告,問(wèn)推薦策略?100億數(shù)字,怎么統(tǒng)計(jì)前100大的?

          15. 問(wèn)了一個(gè)預(yù)估的題目,讓你估計(jì)早餐市場(chǎng)的規(guī)模。

          16. 系統(tǒng)設(shè)計(jì)題,給一個(gè)query,如何快速?gòu)?0億個(gè)query中找出和它最相似的 (面試官說(shuō)可以對(duì)每個(gè)query找1000個(gè)最相似的,存起來(lái),每天離線更新)

          17. 設(shè)計(jì)一個(gè)合理的電梯調(diào)度策略,調(diào)度兩個(gè)電梯 ,考慮滿足基本的接送需求,滿足能耗最小,滿足用戶等待時(shí)間最短 (難到我了,我想的方法不好,面試告訴我了他的想法,類(lèi)似于一個(gè)進(jìn)程調(diào)度問(wèn)題,每一時(shí)刻只可能有一個(gè)用戶按按鈕,把這條指令接收,判斷當(dāng)前電梯能否滿足,能滿足就執(zhí)行,不能滿足則放入一個(gè)隊(duì)列里,實(shí)際情況還要細(xì)化)

          18. 在互聯(lián)網(wǎng)分析中,通常會(huì)關(guān)注用戶的【第N日激活率】來(lái)衡量用戶質(zhì)量。用戶的第N日激活指的是用戶在注冊(cè)的第N天登錄網(wǎng)站或App,即算為該用戶的第N日激活。第N日激活率指的是某日注冊(cè)用戶在第N天激活的數(shù)量除以該日所有注冊(cè)用戶數(shù)量。

          19. “赤兔”是領(lǐng)英中國(guó)針對(duì)中國(guó)職場(chǎng)人士推出的一款本土化的社交應(yīng)用。如果你是領(lǐng)英中國(guó)的數(shù)據(jù)分析師,你會(huì)從哪些方面和維度來(lái)設(shè)計(jì)各項(xiàng)指標(biāo),給產(chǎn)品的設(shè)計(jì)和運(yùn)營(yíng)提供數(shù)據(jù)上的支持?請(qǐng)給出具體的維度和指標(biāo),并說(shuō)明原因。

          20. 比如你現(xiàn)在知道了一個(gè)用戶訪問(wèn)網(wǎng)站的歷史記錄,比如時(shí)間,流量,高峰期或沒(méi)有訪問(wèn)之類(lèi)的數(shù)據(jù),讓你來(lái)分析一下這個(gè)用戶。我:這個(gè)中間和面試官探討了半天,沒(méi)有回答好。。

          21. 做廣告點(diǎn)擊率預(yù)測(cè),用哪些數(shù)據(jù)什么算法

          22. 用戶流失率預(yù)測(cè)怎么做(游戲公司的數(shù)據(jù)挖掘都喜歡問(wèn)這個(gè))

          23. 一個(gè)游戲的設(shè)計(jì)過(guò)程中該收集什么數(shù)據(jù)

          24. 如何從登陸日志中挖掘盡可能多的信息

          25. 如何做一個(gè)新聞推薦

          26. 開(kāi)放性問(wèn)題:每個(gè)實(shí)體有不同屬性,現(xiàn)在有很多實(shí)體的各種屬性數(shù)據(jù),如何判斷兩個(gè)實(shí)體是否是同一種東西

          27. 如何從登陸日志中挖掘盡可能多的信息http://www.docin.com/p-118297971.html

          27. 用戶流失率預(yù)測(cè)怎么做(游戲公司的數(shù)據(jù)挖掘都喜歡問(wèn)這個(gè))http://www.docin.com/p-1204742211.html

          87. 一個(gè)游戲的設(shè)計(jì)過(guò)程中該收集什么數(shù)據(jù)

          88. 做廣告點(diǎn)擊率預(yù)測(cè),用哪些數(shù)據(jù)什么算法http://bbs.pinggu.org/thread-3182029-1-1.html

          89. 場(chǎng)景題一般是面試官工作中遇到的問(wèn)題,問(wèn)題一般會(huì)比較細(xì),比如說(shuō)獲取某些item的屬性標(biāo)簽。

          90. 如果問(wèn)題里沒(méi)有明確出現(xiàn)“預(yù)測(cè)”等字眼,最好不要用模型角度去回答問(wèn)題。因?yàn)閷?shí)際工作中,可能不會(huì)為了某個(gè)小問(wèn)題,去動(dòng)用集群來(lái)跑模型,這些小問(wèn)題可能是用來(lái)給跑集群的模型加特征的,應(yīng)該優(yōu)先以人工規(guī)則來(lái)解決。

          91. 人工規(guī)則可能有隱藏先驗(yàn)條件,就是可以用到這個(gè)公司其他產(chǎn)品數(shù)據(jù)。

          87. 解決方案類(lèi)題目為今日頭條設(shè)計(jì)一個(gè)熱門(mén)評(píng)論系統(tǒng),支持實(shí)時(shí)更新給定淘寶上同類(lèi)目同價(jià)格范圍的兩個(gè)商品A和B,如何利用淘寶已有的用戶、商品數(shù)據(jù)、搜索數(shù)據(jù)、評(píng)論數(shù)據(jù)、用戶行為數(shù)據(jù)等所有能拿到的數(shù)據(jù)進(jìn)行建模,判斷A和B統(tǒng)計(jì)平均性價(jià)比高低。統(tǒng)計(jì)平均性價(jià)比的衡量標(biāo)準(zhǔn)是大量曝光,購(gòu)買(mǎi)者多則高。有n個(gè)elements和1個(gè)Compare(A, B)函數(shù),用Compare函數(shù)作為排序算法中的比較算子給elements排序。Compare函數(shù)有p的可能比較錯(cuò)。排序完取Top m個(gè)元素,本來(lái)就在Top m并被正確分在Top m的元素個(gè)數(shù)是x。問(wèn)x的數(shù)學(xué)期望。如何預(yù)測(cè)雙十一支付寶的負(fù)載峰值。

          88. 給你1000w篇文檔或html,如何判斷是否為體育類(lèi)的新聞,需要給出系統(tǒng)的方法;答:分詞+人工判定+詞庫(kù)+SVM訓(xùn)練。

          89. 設(shè)計(jì)一個(gè)系統(tǒng)可以實(shí)時(shí)統(tǒng)計(jì)任意 ip 在過(guò)去一個(gè)小時(shí)的訪問(wèn)量;


          推薦閱讀



          添加極市小助手微信(ID : cv-mart),備注:研究方向-姓名-學(xué)校/公司-城市(如:目標(biāo)檢測(cè)-小極-北大-深圳),即可申請(qǐng)加入極市技術(shù)交流群,更有每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、行業(yè)技術(shù)交流,一起來(lái)讓思想之光照的更遠(yuǎn)吧~


          △長(zhǎng)按添加極市小助手


          △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨


          覺(jué)得有用麻煩給個(gè)在看啦~??610b07551fa8ce1dbc2223ff03efe0fd.webp

          瀏覽 28
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品福利一区二区 | www国产极品 | 国产色天使 | 色色色 婷| 啪啪啪免费 |