<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)分析面試考點!敲黑板!劃重點!

          共 2141字,需瀏覽 5分鐘

           ·

          2020-11-25 17:09


          xyjisaw | 作者

          OmegaXYZ |?來源

          https://www.omegaxyz.com/2020/02/17/data-analysis-interview/




          1


          業(yè)務(wù)邏輯


          數(shù)據(jù)分析遵循一定的流程,不僅可以保證數(shù)據(jù)分析每一個階段的工作內(nèi)容有章可循,而且還可以讓分析最終的結(jié)果更加準確,更加有說服力。一般情況下,數(shù)據(jù)分析分為以下幾個步驟:

          • 業(yè)務(wù)理解,確定目標、明確分析需求

          • 數(shù)據(jù)理解,收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)、檢驗數(shù)據(jù)質(zhì)量

          • 數(shù)據(jù)準備,選擇數(shù)據(jù)、清洗數(shù)據(jù)、構(gòu)造數(shù)據(jù)、整合數(shù)據(jù)、格式化數(shù)據(jù)

          • 建立模型,選擇建模技術(shù)、參數(shù)調(diào)優(yōu)、生成測試計劃、構(gòu)建模型

          • 評估模型,對模型進行較為全面的評價,評價結(jié)果、重審過程

          • 成果部署,分析結(jié)果應(yīng)用


          2


          特征工程


          包括特征提取特征構(gòu)建特征選擇。特征工程的目的是篩選出更好的特征,獲取更好的訓練數(shù)據(jù)。因為好的特征具有更強的靈活性,可以用簡單的模型做訓練,更可以得到好的結(jié)果。


          3


          數(shù)據(jù)采集 / 清洗 / 采樣


          1. 數(shù)據(jù)采集


          數(shù)據(jù)采集前需要明確采集哪些數(shù)據(jù),一般的思路為:哪些數(shù)據(jù)對最后的結(jié)果預(yù)測有幫助?數(shù)據(jù)我們能夠采集到嗎?線上實時計算的時候獲取是否快捷?


          舉例1:我現(xiàn)在要預(yù)測用戶對商品的下單情況,或者我要給用戶做商品推薦,那我需要采集什么信息呢?

          • 店家:店鋪的評分、店鋪類別……

          • 商品:商品評分、購買人數(shù)、顏色、材質(zhì)、領(lǐng)子形狀……

          • 用戶:歷史信息(購買商品的最低價最高價)、消費能力、商品停留時間……


          2. 數(shù)據(jù)清洗


          數(shù)據(jù)清洗也是很重要的一步,機器學習算法大多數(shù)時候就是一個加工機器,至于最后的產(chǎn)品如何,取決于原材料的好壞。數(shù)據(jù)清洗就是要去除臟數(shù)據(jù),比如某些商品的刷單數(shù)據(jù)。


          那么如何判定臟數(shù)據(jù)呢?

          • 簡單屬性判定:一個人身高3米+的人;一個人一個月買了10w的發(fā)卡。

          • 組合或統(tǒng)計屬性判定:你要判定一個人是否會買籃球鞋,樣本中女性用戶85%?

          • 補齊可對應(yīng)的缺省值:不可信的樣本丟掉,缺省值極多的字段考慮不用。


          數(shù)據(jù)清洗標準:

          • 數(shù)據(jù)的完整性—-例如人的屬性中缺少性別、籍貫、年齡等

          • 數(shù)據(jù)的唯一性—-例如不同來源的數(shù)據(jù)出現(xiàn)重復(fù)的情況

          • 數(shù)據(jù)的權(quán)威—-例如同一個指標出現(xiàn)多個來源的數(shù)據(jù),且數(shù)值不一樣

          • 數(shù)據(jù)的合法性—-例如獲取的數(shù)據(jù)與常識不符,年齡大于150歲

          • 數(shù)據(jù)的一致性—-例如不同來源的不同指標,實際內(nèi)涵是一樣的,或是同一指標內(nèi)涵不一致


          3. 數(shù)據(jù)采樣


          采集、清洗過數(shù)據(jù)以后,正負樣本是不均衡的,要進行數(shù)據(jù)采樣。采樣的方法有隨機采樣分層抽樣。但是隨機采樣會有隱患,因為可能某次隨機采樣得到的數(shù)據(jù)很不均勻,更多的是根據(jù)特征采用分層抽樣。


          正負樣本不平衡處理辦法:

          • 正樣本 >> 負樣本,且量都挺大 => downsampling

          • 正樣本 >> 負樣本,量不大 =>


          4


          數(shù)據(jù)標準化和歸一化


          max-min:這種方法有一個缺陷就是當有新數(shù)據(jù)加入時,可能導致max和min的變化,需要重新定義。


          Z-score:最常見的標準化方法就是Z標準化,也是SPSS中最為常用的標準化方法,spss默認的標準化方法就是z-score標準化。也叫標準差標準化,這種方法給予原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1,其轉(zhuǎn)化函數(shù)為:x?=x?μσ,其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標準差。z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。


          5


          ROC與AOC


          ROC(Receiver Operating Characteristic)曲線即受試者工作特征曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve),用來評價一個二值分類器(binary classifier)的優(yōu)劣。


          AUC(Area Under Curve)被定義為ROC曲線下的面積,這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應(yīng)AUC更大的分類器效果更好。為什么呢,因為ROC曲線越接近左上角,AUC面積就越大,分類器性能就越好。


          6


          辛普森悖論


          分組比較中都占優(yōu)勢的一方,在總評中有時反而是失勢的一方。即,數(shù)據(jù)集分組呈現(xiàn)的趨勢與數(shù)據(jù)集聚合呈現(xiàn)的趨勢相反的現(xiàn)象。


          如下圖,按照性別分組的結(jié)果與總體的結(jié)果不同。



          -?END -

          本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請聯(lián)系后臺刪除

          后臺回復(fù)關(guān)鍵字:破解,獲取Pycharm 破解版,親測有效哦
          后臺回復(fù)關(guān)鍵字:自學,獲取一份精心整理的 5本 Python 經(jīng)典用書
          后臺回復(fù)關(guān)鍵字:國慶,獲取50本電子書。
          后臺回復(fù)關(guān)鍵字:1109,獲取PYTHON進階書。

          瀏覽 107
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本成人黄色视频 | 国产永久在线 | 操逼视频一区二区三区 | 日本中文在线视频 | 久久黄色录像 |