一個(gè)缺失值可視化處理神器
數(shù)據(jù)預(yù)處理之缺失值可視化處理
每次處理數(shù)據(jù)時(shí),缺失值是必須要考慮的問題。但是手工查看每個(gè)變量的缺失值是非常麻煩的一件事情。
missingno 提供了一個(gè)靈活且易于使用的缺失數(shù)據(jù)可視化和實(shí)用程序的小工具集,使您可以快速直觀地總結(jié)數(shù)據(jù)集的完整性。
我們使用python來進(jìn)行演練
1、首先安裝程序包并加載:
pip install missingno
import missingno as msno
2、導(dǎo)入訓(xùn)練數(shù)據(jù)集
import pandas as pd
import numpy as ny
data=pd.read_csv("model.csv")
3、無效矩陣的數(shù)據(jù)密集顯示
msno.matrix(data, labels=True)

可以快速直觀地挑選出圖案的數(shù)據(jù)完成
我們可以一目了然的看到每個(gè)變量的缺失情況,
變量y,X9數(shù)據(jù)是完整的,其他變量都有不同程度的缺失,
尤其是X3,X5,X7等的缺失非常嚴(yán)重
4、條形圖
msno.bar(data)
msno.bar 是列的無效的簡單可視化:
利用條形圖可以更直觀的看出每個(gè)變量缺失的比例和數(shù)量情況。

5、熱圖相關(guān)性
msno.heatmap(data)

missingno相關(guān)性熱圖措施無效的相關(guān)性:一個(gè)變量的存在或不存在如何強(qiáng)烈影響的另一個(gè)的存在:
我們看到X5與X1.1的缺失相關(guān)性為1,說明X5只要發(fā)生了缺失,那么X1.1也會(huì)缺失,
X7和X8的相關(guān)性為-1,說明X7缺失的值,那么X8沒有缺失;而X7沒有缺失時(shí),X8為缺失。
6、樹狀圖
msno.dendrogram(data)

樹形圖使用層次聚類算法通過它們的無效性相關(guān)性(根據(jù)二進(jìn)制距離測量)將變量彼此相加。在樹的每個(gè)步驟,基于哪個(gè)組合最小化剩余簇的距離來分割變量。變量集越單調(diào),它們的總距離越接近零,并且它們的平均距離(y軸)越接近零。
總體上,圖標(biāo)分為兩個(gè)大類,一類是數(shù)據(jù)比較完整的,一類是缺失值比較多的。
要解釋此圖表,要從上往下的角度閱讀。
左邊數(shù)據(jù)是比較完整的一類,Y和X9是完整的數(shù)據(jù),沒有缺失值,所以他們的距離為0;相對于其他變量X11也是比較完整的,距離要比其他變量小,所以先把X11加進(jìn)來。其他變量以此類推。
右邊是缺失值比較嚴(yán)重的,熱圖相關(guān)性里面我們看到了X5和X1.1的相關(guān)性系數(shù)為1,所以他們的距離為0,首先聚在一起;之后再跟其他進(jìn)行計(jì)算距離,把距離較近的X7加進(jìn)來,以此類推。
文章參考:https://blog.csdn.net/Andy_shenzl/article/details/81633356
