区三区日本在线观看视频,精品视频你懂的,婷婷五月天综合导航,亚洲AV无码成人精品一区色欲 ,北条麻妃最新黑人码,久草视频在线免费播放,九九热91,影音先锋在线成人

每次處理數(shù)據(jù)時(shí)，缺失值是必須要考慮的問題。但是手工查看每個(gè)變量的缺失值是非常麻煩的一件事情。

missingno 提供了一個(gè)靈活且易于使用的缺失數(shù)據(jù)可視化和實(shí)用程序的小工具集，使您可以快速直觀地總結(jié)數(shù)據(jù)集的完整性。

我們使用python來進(jìn)行演練

1、首先安裝程序包并加載：

pip install missingno

import missingno as msno

2、導(dǎo)入訓(xùn)練數(shù)據(jù)集

import pandas as pd
import numpy as ny
 
data=pd.read_csv("model.csv")

3、無效矩陣的數(shù)據(jù)密集顯示

msno.matrix(data, labels=True)

可以快速直觀地挑選出圖案的數(shù)據(jù)完成

我們可以一目了然的看到每個(gè)變量的缺失情況，

變量y,X9數(shù)據(jù)是完整的，其他變量都有不同程度的缺失，

尤其是X3，X5，X7等的缺失非常嚴(yán)重

4、條形圖

msno.bar(data)
msno.bar 是列的無效的簡單可視化：

利用條形圖可以更直觀的看出每個(gè)變量缺失的比例和數(shù)量情況。

5、熱圖相關(guān)性

 msno.heatmap(data)

missingno相關(guān)性熱圖措施無效的相關(guān)性：一個(gè)變量的存在或不存在如何強(qiáng)烈影響的另一個(gè)的存在：

我們看到X5與X1.1的缺失相關(guān)性為1，說明X5只要發(fā)生了缺失，那么X1.1也會(huì)缺失，

X7和X8的相關(guān)性為-1，說明X7缺失的值，那么X8沒有缺失；而X7沒有缺失時(shí)，X8為缺失。

6、樹狀圖

msno.dendrogram(data)

樹形圖使用層次聚類算法通過它們的無效性相關(guān)性（根據(jù)二進(jìn)制距離測量）將變量彼此相加。在樹的每個(gè)步驟，基于哪個(gè)組合最小化剩余簇的距離來分割變量。變量集越單調(diào)，它們的總距離越接近零，并且它們的平均距離（y軸）越接近零。

總體上，圖標(biāo)分為兩個(gè)大類，一類是數(shù)據(jù)比較完整的，一類是缺失值比較多的。

要解釋此圖表，要從上往下的角度閱讀。

左邊數(shù)據(jù)是比較完整的一類，Y和X9是完整的數(shù)據(jù)，沒有缺失值，所以他們的距離為0；相對于其他變量X11也是比較完整的，距離要比其他變量小，所以先把X11加進(jìn)來。其他變量以此類推。

右邊是缺失值比較嚴(yán)重的，熱圖相關(guān)性里面我們看到了X5和X1.1的相關(guān)性系數(shù)為1，所以他們的距離為0，首先聚在一起；之后再跟其他進(jìn)行計(jì)算距離，把距離較近的X7加進(jìn)來，以此類推。

文章參考：https://blog.csdn.net/Andy_shenzl/article/details/81633356

一個(gè)缺失值可視化處理神器