<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一個(gè)缺失值可視化處理神器

          共 1243字,需瀏覽 3分鐘

           ·

          2021-09-19 16:40

          數(shù)據(jù)預(yù)處理之缺失值可視化處理

          每次處理數(shù)據(jù)時(shí),缺失值是必須要考慮的問題。但是手工查看每個(gè)變量的缺失值是非常麻煩的一件事情。

          missingno 提供了一個(gè)靈活且易于使用的缺失數(shù)據(jù)可視化和實(shí)用程序的小工具集,使您可以快速直觀地總結(jié)數(shù)據(jù)集的完整性。

          我們使用python來進(jìn)行演練

          1、首先安裝程序包并加載:

          pip install missingno
          import missingno as msno

          2、導(dǎo)入訓(xùn)練數(shù)據(jù)集

          import pandas as pd
          import numpy as ny
           
          data=pd.read_csv("model.csv")

          3、無效矩陣的數(shù)據(jù)密集顯示

          msno.matrix(data, labels=True)

          可以快速直觀地挑選出圖案的數(shù)據(jù)完成

          我們可以一目了然的看到每個(gè)變量的缺失情況,

          變量y,X9數(shù)據(jù)是完整的,其他變量都有不同程度的缺失,

          尤其是X3,X5,X7等的缺失非常嚴(yán)重

          4、條形圖

          msno.bar(data)
          msno.bar 是列的無效的簡單可視化:

          利用條形圖可以更直觀的看出每個(gè)變量缺失的比例和數(shù)量情況。

          5、熱圖相關(guān)性

           msno.heatmap(data)

          missingno相關(guān)性熱圖措施無效的相關(guān)性:一個(gè)變量的存在或不存在如何強(qiáng)烈影響的另一個(gè)的存在:

          我們看到X5與X1.1的缺失相關(guān)性為1,說明X5只要發(fā)生了缺失,那么X1.1也會(huì)缺失,

          X7和X8的相關(guān)性為-1,說明X7缺失的值,那么X8沒有缺失;而X7沒有缺失時(shí),X8為缺失。

          6、樹狀圖

          msno.dendrogram(data)

          樹形圖使用層次聚類算法通過它們的無效性相關(guān)性(根據(jù)二進(jìn)制距離測量)將變量彼此相加。在樹的每個(gè)步驟,基于哪個(gè)組合最小化剩余簇的距離來分割變量。變量集越單調(diào),它們的總距離越接近零,并且它們的平均距離(y軸)越接近零。

          總體上,圖標(biāo)分為兩個(gè)大類,一類是數(shù)據(jù)比較完整的,一類是缺失值比較多的。

          要解釋此圖表,要從上往下的角度閱讀。

          左邊數(shù)據(jù)是比較完整的一類,Y和X9是完整的數(shù)據(jù),沒有缺失值,所以他們的距離為0;相對于其他變量X11也是比較完整的,距離要比其他變量小,所以先把X11加進(jìn)來。其他變量以此類推。

          右邊是缺失值比較嚴(yán)重的,熱圖相關(guān)性里面我們看到了X5和X1.1的相關(guān)性系數(shù)為1,所以他們的距離為0,首先聚在一起;之后再跟其他進(jìn)行計(jì)算距離,把距離較近的X7加進(jìn)來,以此類推。

          文章參考:https://blog.csdn.net/Andy_shenzl/article/details/81633356


          瀏覽 43
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品视频播放豆花网站 | 成人一区二区三区 | 亚洲免费精品在线 | 日韩经典乱伦AV | 黄色一级日逼片 |