<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數據分析面試,到底怎么準備機器學習知識?

          共 2776字,需瀏覽 6分鐘

           ·

          2020-09-08 03:53



          如果你的簡歷上,有機器學習模型的名詞,可能收獲的面試問題是:

          “你用過XXXX吧?是用什么語言做的?講一下原理和調參的過程吧?

          如果你的簡歷上,沒有機器學習的字眼,可能收獲的面試問題是:

          “了解機器學習嗎?挑一個你熟悉的講講吧?”

          明明在JD里,寫著【懂模型】是加分項,

          但在面試里,卻好像怎么也繞不開這個坎……

          除了計算機和數學系的專業(yè)課大概率有所涉及,像諸多的經濟學、管理學、通信、材料學科,基本機器學習這一塊只能靠自我驅動了……

          其實我是一個看見數學公式推導就很頭疼的人,別說現在說不全常用希臘字母的讀音,擱大學那會兒我的高數簡直是在生死線掙扎,靠抱各路大神的大腿才勉強及格。

          但就算是這樣,我也能保證自己在花費了時間和精力后,能夠在緩慢的思考中用梯度下降法把邏輯回歸的求解過程推導出來,也能夠順利的說出決策樹中信息增益、信息增益比、基尼指數的計算邏輯和應用方法。

          當然,再難一點,當面試官問題GBDT\XGBOOST的推導過程時,我只能很誠實的說“不好意思,這個推導過程我不會,不過我能說出它的原理。”

          不過幾十場面試里,也就渺渺幾個人讓我真的說出(寫下)推導的過程(畢竟面的不是算法崗),大多都是問一些原理、應用場景的問題,這倒是正中我下懷——凡是能夠用文字表達的東西,我都很樂意提前整理好文檔。

          那,非專業(yè)的人、或者數學基礎不太好的人,我們可以怎么樣去準備文檔里【機器學習】這個PART呢?
          ?



          從簡單到復雜。畢竟沒有接觸過這些東西,在開始準備的時候,可以先整理好邏輯回歸、決策樹這種簡單的算法,手推的過程會更加友好。作為零基礎的人,不建議一上來就非要推出個CNN……


          從原理到應用。原理、優(yōu)缺點和應用恰好是最容易用文字來表達的內容,也是面試的時候喜歡問的東西。


          【可選】手推。從時間成本的角度上看,我認為手推是準備過程中【可選】的內容,從現在到7月秋招開啟,短短的2-3個月還需要實習、寫論文、復盤,在這些龐大的工作量下,可以、也應該有選擇性的放棄一些知識。


          延伸提問。在回答完某一個算法的原理問題后,很多面試官喜歡進行延伸知識點提問,比如從邏輯回歸關聯到L1L2正則;從樸素貝葉斯關聯到貝葉斯公式的原理;從決策樹關聯到Boosting和Bagging……在學習完所有的基礎內容后,可以著手整理這一塊的東西。



          ?
          ?? 好的,我們來看一下,針對每一個算法,我們應該準備下哪些東西?





          ?? 我以簡單的決策樹作為案例,看一看需要準備哪些文字版的內容。

          ?? STEP1:整體概況

          ?決策樹是一種對樣本進行分類的樹形結構,也能夠進行回歸預測。決策樹主要包含3種結點:根節(jié)點——初始結點;葉節(jié)點——最終分類結果結點;內結點——樹內部進行判斷的條件結點-即特征,在決策樹中,每一個樣本都只會被一條路徑覆蓋。

          STEP2:生成原理

          決策樹常見的生成算法有三種,ID3,C4.5以及Cart。以ID3算法為例介紹一下決策樹的生成原理。

          第一步,計算信息增益。ID3算法是利用信息增益進行特征選擇的。信息增益是指,已知某一特征xi后,使得樣本整體特征不確定性減少的程度。

          第二步,在每個節(jié)點上利用信息增益進行特征的選擇,在選擇特征時,優(yōu)先選擇信息增益最大的特征。直到剩余特征的信息增益小于閾值、或已經沒有特征可以選擇時終止。

          第三步,對決策樹進行剪枝優(yōu)化。構建決策樹的損失函數(與預測誤差以及樹的復雜度有關),將每一個葉節(jié)點回縮到上一層父節(jié)點,對損失函數最小的葉節(jié)點進行修剪。

          C4.5算法的過程與ID3類似,只是使用了信息增益比而非信息增益進行計算。信息增益比是指在信息增益的基礎之上乘一個懲罰參數。特征個數較多時,懲罰參數較小;特征個數較少時,懲罰參數較大。而CART算法則是使用基尼指數進行計算。基尼指數是指樣本被某一特征分割后,整個樣本集合不確定性程度的大小,基尼指數越小,樣本集合被分割后的不確定性越小。

          STEP3:優(yōu)缺點

          決策樹的優(yōu)勢包括:輸出樹形圖可解釋性較強,if-then形式,邏輯很好理解;對輸入數據的屬性要求低(分類,連續(xù));

          劣勢包括:當數據集特征維度很多時,決策樹會生成許多枝干,或者樹非常深,陷入過擬合;判定過程很規(guī)則化,容易被識破并攻擊。

          STEP4:應用場景

          ?? 決策樹的應用場景十分廣。可以用來評估貸款風險;可以輔助醫(yī)生選擇診斷模型;也可以用于垃圾郵件的分類判斷。

          STEP5:手推

          決策樹這一塊需要手推的東西比較少,主要是應該掌握:

          【熵】、【信息增益】、【信息增益比】、【基尼指數】、【損失函數】的公式;

          CART算法【回歸樹】、【分類樹】的生成方式推導。

          這些內容多在紙上推推算算記記,就差不多OK了。

          STEP6:延伸提問

          信息增益比和信息增益相比,有什么優(yōu)勢?
          (可以從信息增益比的定義出發(fā)解釋)

          如何解決決策樹的過擬合問題?
          (剪枝、交叉驗證、篩選特征)

          預剪枝和后剪枝?
          (參考樹的高度、葉子結點的數量、不純度等、在生成決策樹前(后)進行剪枝)

          隨機森林。都問完決策樹了,再問個隨機森林是很正常的。
          (這里同樣從整體概況、原理、優(yōu)缺點等進行整理)

          Bagging和Boosting的區(qū)別?決策樹常被作為基礎分類器用于更多復雜的算法里。而說到分類器的集成就逃不開Bagging和Boosting。
          (樣本的抽取;樣本的權重;是否并行計算等)


          GBDT\XGBOOST。害,誰叫這幾年kaggle和天池動不動就用了這倆兄弟,他們又恰好可以是決策樹這種弱分類器的集成算法呢?
          (同(4))




          ???? 機器學習不是我擅長的東西,但卻是必須準備的知識。

          ???? 好在也許面試官們理解化學本科、管理學碩士的我可能對算法真的不會特別深入的了解,倒也不會過多的追問原理細節(jié)。

          ???? 也有可能我面試的大多數數分崗位都是偏業(yè)務的,機器學習的確是加分但并非必需,面試官不會對這塊過分關心。

          ??? 最后,獻上學習資料吧。

          李航《統計學習方法》
          這個不多數,人手一本,機器學習入門必備。如果只想選擇一份資料,那就是它了。(最新版本如下)


          吳恩達《Machine Learning》
          Andrew Ng在 Coursera 上開設的機器學習入門課《Machine Learning》已經被太多人推薦過了,能夠堅持看完基本就OK了。

          shuhuai008《機器學習-白板推導系列》??
          ???? 不得不說,這兩年B站上涌出了一堆魚龍混雜學習資料,但也不乏精品。這個《機器學習-白班推導系列》更加適合數學基礎好,對手推算法有需求的人。

          善用百度google
          各色博客里早就把這些算法翻來覆去總結透了。

          瀏覽 74
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩一级无码视频 | 日批网站在线观看 | 亚洲AV激情无码专区在线播放 | 久久伊人爱 | 激情综合婷婷久久 |