Python讀取Excel計(jì)算數(shù)據(jù)相關(guān)性
怎樣讀取Excel,計(jì)算不同數(shù)據(jù)列之間的相關(guān)性?
本次使用“小費(fèi)數(shù)據(jù)集”進(jìn)行演示。
數(shù)據(jù)集字段說(shuō)明:
消費(fèi)總金額(totall_bill)(不含小費(fèi))
小費(fèi)金額(tip)
顧客性別(sex)
消費(fèi)的星期(day)
消費(fèi)的時(shí)間段(time)
用餐人數(shù)(size)
顧客是否抽煙(smoker)
## 1、引入包,讀取數(shù)據(jù)

## 2、轉(zhuǎn)換特征為數(shù)字類(lèi)型
要計(jì)算相關(guān)性,數(shù)據(jù)列需要是數(shù)字
使用pd.get_dummies自動(dòng)可以完成,真的很方便

## 3、計(jì)算相關(guān)性矩陣

## 4、抽取目標(biāo)列的相關(guān)性

可以看到,和小費(fèi)字段最相關(guān)的,是總賬單、就餐人數(shù)等字段。
## 5、總結(jié)
得到數(shù)據(jù)后,我們經(jīng)常需要這樣的分析,就是得到跟目標(biāo)列的哪些列相關(guān)性最大,用df.corr可以很方便的得到數(shù)據(jù),但是在此之前,需要做一下特征處理。
## 6、小知識(shí)
相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jī)蓚€(gè)變量因素的相關(guān)密切程度。相關(guān)性的元素之間需要存在一定的聯(lián)系或者概率才可以進(jìn)行相關(guān)性分析。通常用來(lái)分析兩組或多組數(shù)據(jù)的變化趨勢(shì)是否一致。
