【精選】數(shù)據(jù)分析方法論——相關(guān)性分析法
01
在數(shù)據(jù)分析的問(wèn)題中, 經(jīng)常會(huì)遇見(jiàn)的一種問(wèn)題就是相關(guān)的問(wèn)題, 比如抖音短視頻的產(chǎn)品經(jīng)理經(jīng)常要來(lái)問(wèn)留存(是否留下來(lái))和觀看時(shí)長(zhǎng), 收藏的次數(shù), 轉(zhuǎn)發(fā)的次數(shù), 關(guān)注的抖音博主數(shù)等等是否有相關(guān)性, 相關(guān)性有多大。
因?yàn)橹挥兄懒四男┮蛩睾土舸姹容^相關(guān), 才知道怎么去優(yōu)化從產(chǎn)品的方向去提升留存率, 比如 如果留存和收藏的相關(guān)性比較大 那么我們就要引導(dǎo)用戶去收藏視頻, 從而提升相關(guān)的指標(biāo),

除了留存的相關(guān)性計(jì)算的問(wèn)題, 還有類似的需要去計(jì)算相關(guān)性的問(wèn)題, 比如淘寶的用戶 他們的付費(fèi)行為和哪些行為相關(guān), 相關(guān)性有多大, 這樣我們就可以挖掘出用戶付費(fèi)的關(guān)鍵行為
這種問(wèn)題就是相關(guān)性量化, 我們要找到一種科學(xué)的方法去計(jì)算這些因素和留存的相關(guān)性的大小,
這種方法就是相關(guān)性分析
02
相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jī)蓚€(gè)變量因素的相關(guān)密切程度。相關(guān)性的元素之間需要存在一定的聯(lián)系或者概率才可以進(jìn)行相關(guān)性分析(官方定義)
簡(jiǎn)單來(lái)說(shuō), 相關(guān)性的方法主要用來(lái)分析兩個(gè)東西他們之間的相關(guān)性大小
相關(guān)性大小用相關(guān)系數(shù)r來(lái)描述,關(guān)于r的解讀:(從知乎摘錄的)
(1)正相關(guān):如果x,y變化的方向一致,如身高與體重的關(guān)系,r>0;一般地,
·|r|>0.95 存在顯著性相關(guān);
·|r|≥0.8 高度相關(guān);
·0.5≤|r|<0.8 中度相關(guān);
·0.3≤|r|<0.5 低度相關(guān);
·|r|<0.3 關(guān)系極弱,認(rèn)為不相關(guān)
(2)負(fù)相關(guān):如果x,y變化的方向相反,如吸煙與肺功能的關(guān)系,r<0;
(3)無(wú)線性相關(guān):r=0, 這里注意, r=0 不代表他們之間沒(méi)有關(guān)系, 可能只是不存在線性關(guān)系。
下面用幾個(gè)圖來(lái)描述一下 不同的相關(guān)性的情況

第一張圖r=-0.92 <0 是說(shuō)明橫軸和縱軸的數(shù)據(jù)呈現(xiàn)負(fù)相關(guān), 意思就是隨著橫軸的數(shù)據(jù)值越來(lái)越大縱軸的數(shù)據(jù)的值呈現(xiàn)下降的趨勢(shì), 從r的絕對(duì)值為0.92>0.8 來(lái)看, 說(shuō)明兩組數(shù)據(jù)的相關(guān)性高度相關(guān)
同樣的, 第二張圖 r=0.88 >0 說(shuō)明縱軸和橫軸的數(shù)據(jù)呈現(xiàn)正向的關(guān)系, 隨著橫軸數(shù)據(jù)的值越來(lái)越大, 縱軸的值也隨之變大, 并且兩組數(shù)據(jù)也是呈現(xiàn)高度相關(guān)
03
前面已經(jīng)講了什么是相關(guān)性分析方法, 那么我們?cè)趺慈?shí)現(xiàn)這種分析方法呢, 以下先用python 實(shí)現(xiàn)
1. 首先是導(dǎo)入數(shù)據(jù)集, 這里以tips 為例
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline## 定義主題風(fēng)格sns.set(style="darkgrid")## 加載tipstips = sns.load_dataset("tips")
2. 查看導(dǎo)入的數(shù)據(jù)集情況,
字段分別代表
total_bill: 總賬單數(shù)
tip: 消費(fèi)數(shù)目
sex: 性別
smoker: 是否是吸煙的群眾
day: 天氣
time: 晚餐 dinner, 午餐lunch
size: 顧客數(shù)
tips.head() # 查看數(shù)據(jù)的前幾行
3. 最簡(jiǎn)單的相關(guān)性計(jì)算
tips.corr()
4. 任意看兩個(gè)數(shù)據(jù)之間相關(guān)性可視化,比如看 total_bill 和 tip 之間的相關(guān)性,就可以如下操作進(jìn)行可視化
## 繪制圖形,根據(jù)不同種類的三點(diǎn)設(shè)定圖注sns.relplot(x="total_bill", y="tip", data=tips);plt.show()

從散點(diǎn)圖可以看出賬單的數(shù)目和消費(fèi)的數(shù)目基本是呈正相關(guān), 賬單的總的數(shù)目越高, 給得消費(fèi)也會(huì)越多
5. 如果要看全部任意兩兩數(shù)據(jù)的相關(guān)性的可視化
sns.pairplot(tips)
6. 如果要分不同的人群, 吸煙和非吸煙看總的賬單數(shù)目total_bill和小費(fèi)tip 的關(guān)系。
sns.relplot(x="total_bill", y="tip", hue="smoker", data=tips)# 利用hue 進(jìn)行區(qū)分plt.show()

7. 同樣的 區(qū)分抽煙和非抽煙群體看所有數(shù)據(jù)之間的相關(guān)性,我們可以看到
對(duì)于男性和女性群體, 在小費(fèi)和總賬單金額的關(guān)系上, 可以同樣都是賬單金額越高的時(shí)候, 小費(fèi)越高的例子上, 男性要比女性給得小費(fèi)更大方
在顧客數(shù)量和小費(fèi)的數(shù)目關(guān)系上, 我們可以發(fā)現(xiàn), 同樣的顧客數(shù)量, 男性要比女性給得小費(fèi)更多
在顧客數(shù)量和總賬單數(shù)目關(guān)系上, 也是同樣的顧客數(shù)量, 男性要比女性消費(fèi)更多
sns.pairplot(tips ,hue ='sex')
04
問(wèn)題:
影響B(tài) 站留存的相關(guān)的關(guān)鍵行為有哪些?
這些行為和留存哪一個(gè)相關(guān)性是最大的?
分析思路:
找全與留存相關(guān)的行為
計(jì)算這些行為和留存的相關(guān)性大小
首先規(guī)劃好完整的思路, 哪些行為和留存相關(guān), 然后利用這些行為+時(shí)間維度 組成指標(biāo), 因?yàn)椴煌臅r(shí)間跨度組合出來(lái)的指標(biāo), 意義是不一樣的, 比如登錄行為就有 7天登錄天數(shù), 30天登錄天數(shù)

第二步計(jì)算這些行為和留存的相關(guān)性, 我們用1 表示會(huì)留存 0 表示不會(huì)留存
那么就得到 用戶id + 行為數(shù)據(jù)+ 是否留存 這幾個(gè)指標(biāo)組成的數(shù)據(jù)
然后就是相關(guān)性大小的計(jì)算
import matplotlib.pyplot as pltimport seaborn as snsretain2 = pd.read_csv("d:/My Documents/Desktop/train2.csv") # 讀取數(shù)據(jù)retain2 = retain2.drop(columns=['click_share_ayyuid_ucnt_days7']) # 去掉不參與計(jì)算相關(guān)性的列plt.figure(figsize=(16,10), dpi= 80)# 相關(guān)性大小計(jì)算sns.heatmap(retain2.corr(), xticklabels=retain2.corr().columns, yticklabels=retain2.corr().columns, cmap='RdYlGn', center=0, annot=True)# 可視化plt.title('Correlogram of retain', fontsize=22)plt.xticks(fontsize=12)plt.yticks(fontsize=12)plt.show()

圖中的數(shù)字值就是代表相關(guān)性大小 r 值 所以從圖中我們可以發(fā)現(xiàn)
留存相關(guān)最大的四大因素:
?30天或者7天登錄天數(shù)(cor: 0.66)
?30天觀看品類個(gè)數(shù)(cor: 0.44)
?30天觀看主播數(shù) (cor: 0.37)
?30天日均觀看時(shí)長(zhǎng)(cor: 0.26)

轉(zhuǎn)發(fā)擴(kuò)散,點(diǎn)擊好看↓↓
