<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【精選】數(shù)據(jù)分析方法論——相關(guān)性分析法

          共 3479字,需瀏覽 7分鐘

           ·

          2021-08-26 21:16

              


          01


                      寫在前面

          在數(shù)據(jù)分析的問(wèn)題中, 經(jīng)常會(huì)遇見(jiàn)的一種問(wèn)題就是相關(guān)的問(wèn)題, 比如抖音短視頻的產(chǎn)品經(jīng)理經(jīng)常要來(lái)問(wèn)留存(是否留下來(lái))和觀看時(shí)長(zhǎng), 收藏的次數(shù), 轉(zhuǎn)發(fā)的次數(shù), 關(guān)注的抖音博主數(shù)等等是否有相關(guān)性, 相關(guān)性有多大。


          因?yàn)橹挥兄懒四男┮蛩睾土舸姹容^相關(guān), 才知道怎么去優(yōu)化從產(chǎn)品的方向去提升留存率, 比如 如果留存和收藏的相關(guān)性比較大 那么我們就要引導(dǎo)用戶去收藏視頻, 從而提升相關(guān)的指標(biāo), 





          除了留存的相關(guān)性計(jì)算的問(wèn)題, 還有類似的需要去計(jì)算相關(guān)性的問(wèn)題, 比如淘寶的用戶 他們的付費(fèi)行為和哪些行為相關(guān), 相關(guān)性有多大, 這樣我們就可以挖掘出用戶付費(fèi)的關(guān)鍵行為


          這種問(wèn)題就是相關(guān)性量化, 我們要找到一種科學(xué)的方法去計(jì)算這些因素和留存的相關(guān)性的大小, 


          這種方法就是相關(guān)性分析

              


          02


                      什么是相關(guān)性分析


          相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jī)蓚€(gè)變量因素的相關(guān)密切程度。相關(guān)性的元素之間需要存在一定的聯(lián)系或者概率才可以進(jìn)行相關(guān)性分析(官方定義)


          簡(jiǎn)單來(lái)說(shuō), 相關(guān)性的方法主要用來(lái)分析兩個(gè)東西他們之間的相關(guān)性大小

          相關(guān)性大小用相關(guān)系數(shù)r來(lái)描述,關(guān)于r的解讀:(從知乎摘錄的)

          (1)正相關(guān):如果x,y變化的方向一致,如身高與體重的關(guān)系,r>0;一般地,

          ·|r|>0.95 存在顯著性相關(guān);

          ·|r|≥0.8 高度相關(guān);

          ·0.5≤|r|<0.8 中度相關(guān);

          ·0.3≤|r|<0.5 低度相關(guān);

          ·|r|<0.3 關(guān)系極弱,認(rèn)為不相關(guān)

          (2)負(fù)相關(guān):如果x,y變化的方向相反,如吸煙與肺功能的關(guān)系,r<0;

          (3)無(wú)線性相關(guān):r=0, 這里注意, r=0 不代表他們之間沒(méi)有關(guān)系, 可能只是不存在線性關(guān)系。

          下面用幾個(gè)圖來(lái)描述一下 不同的相關(guān)性的情況



          第一張圖r=-0.92 <0 是說(shuō)明橫軸和縱軸的數(shù)據(jù)呈現(xiàn)負(fù)相關(guān), 意思就是隨著橫軸的數(shù)據(jù)值越來(lái)越大縱軸的數(shù)據(jù)的值呈現(xiàn)下降的趨勢(shì),  從r的絕對(duì)值為0.92>0.8 來(lái)看, 說(shuō)明兩組數(shù)據(jù)的相關(guān)性高度相關(guān)


          同樣的, 第二張圖 r=0.88 >0 說(shuō)明縱軸和橫軸的數(shù)據(jù)呈現(xiàn)正向的關(guān)系, 隨著橫軸數(shù)據(jù)的值越來(lái)越大, 縱軸的值也隨之變大, 并且兩組數(shù)據(jù)也是呈現(xiàn)高度相關(guān)

              


          03


                      如何實(shí)現(xiàn)相關(guān)性分析


          前面已經(jīng)講了什么是相關(guān)性分析方法, 那么我們?cè)趺慈?shí)現(xiàn)這種分析方法呢, 以下先用python 實(shí)現(xiàn) 


          1.  首先是導(dǎo)入數(shù)據(jù)集, 這里以tips 為例

          import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline## 定義主題風(fēng)格sns.set(style="darkgrid")
          ## 加載tipstips = sns.load_dataset("tips")


          2. 查看導(dǎo)入的數(shù)據(jù)集情況,

          字段分別代表 

          total_bill: 總賬單數(shù)

          tip: 消費(fèi)數(shù)目

          sex: 性別

          smoker: 是否是吸煙的群眾

          day: 天氣

          time: 晚餐 dinner, 午餐lunch

          size: 顧客數(shù)


          tips.head() # 查看數(shù)據(jù)的前幾行


          3. 最簡(jiǎn)單的相關(guān)性計(jì)算

          tips.corr()


          4. 任意看兩個(gè)數(shù)據(jù)之間相關(guān)性可視化,比如看 total_bill 和 tip 之間的相關(guān)性,就可以如下操作進(jìn)行可視化


          ## 繪制圖形,根據(jù)不同種類的三點(diǎn)設(shè)定圖注sns.relplot(x="total_bill", y="tip",  data=tips);plt.show()



          從散點(diǎn)圖可以看出賬單的數(shù)目和消費(fèi)的數(shù)目基本是呈正相關(guān), 賬單的總的數(shù)目越高, 給得消費(fèi)也會(huì)越多


          5. 如果要看全部任意兩兩數(shù)據(jù)的相關(guān)性的可視化


          sns.pairplot(tips)



          6. 如果要分不同的人群, 吸煙和非吸煙看總的賬單數(shù)目total_bill和小費(fèi)tip 的關(guān)系。

          sns.relplot(x="total_bill", y="tip", hue="smoker",  data=tips)# 利用hue 進(jìn)行區(qū)分plt.show()



          7. 同樣的 區(qū)分抽煙和非抽煙群體看所有數(shù)據(jù)之間的相關(guān)性,我們可以看到

          對(duì)于男性和女性群體, 在小費(fèi)和總賬單金額的關(guān)系上, 可以同樣都是賬單金額越高的時(shí)候, 小費(fèi)越高的例子上, 男性要比女性給得小費(fèi)更大方


          在顧客數(shù)量和小費(fèi)的數(shù)目關(guān)系上, 我們可以發(fā)現(xiàn), 同樣的顧客數(shù)量, 男性要比女性給得小費(fèi)更多


          在顧客數(shù)量和總賬單數(shù)目關(guān)系上, 也是同樣的顧客數(shù)量, 男性要比女性消費(fèi)更多


          sns.pairplot(tips ,hue ='sex')


              


          04


                      實(shí)戰(zhàn)案例

          問(wèn)題: 

          影響B(tài) 站留存的相關(guān)的關(guān)鍵行為有哪些?

          這些行為和留存哪一個(gè)相關(guān)性是最大的?


          分析思路: 


          1.  找全與留存相關(guān)的行為

          2. 計(jì)算這些行為和留存的相關(guān)性大小


          首先規(guī)劃好完整的思路, 哪些行為和留存相關(guān), 然后利用這些行為+時(shí)間維度 組成指標(biāo), 因?yàn)椴煌臅r(shí)間跨度組合出來(lái)的指標(biāo), 意義是不一樣的, 比如登錄行為就有 7天登錄天數(shù), 30天登錄天數(shù)




          第二步計(jì)算這些行為和留存的相關(guān)性, 我們用1 表示會(huì)留存 0 表示不會(huì)留存

          那么就得到 用戶id + 行為數(shù)據(jù)+ 是否留存 這幾個(gè)指標(biāo)組成的數(shù)據(jù)


          然后就是相關(guān)性大小的計(jì)算


          import matplotlib.pyplot as pltimport seaborn as snsretain2 = pd.read_csv("d:/My Documents/Desktop/train2.csv") # 讀取數(shù)據(jù)retain2 = retain2.drop(columns=['click_share_ayyuid_ucnt_days7']) # 去掉不參與計(jì)算相關(guān)性的列plt.figure(figsize=(16,10), dpi= 80)# 相關(guān)性大小計(jì)算sns.heatmap(retain2.corr(), xticklabels=retain2.corr().columns, yticklabels=retain2.corr().columns, cmap='RdYlGn', center=0, annot=True)
          # 可視化plt.title('Correlogram of retain', fontsize=22)plt.xticks(fontsize=12)plt.yticks(fontsize=12)plt.show()



          圖中的數(shù)字值就是代表相關(guān)性大小 r 值 所以從圖中我們可以發(fā)現(xiàn)

          留存相關(guān)最大的四大因素:

          ?30天或者7天登錄天數(shù)(cor: 0.66)

          ?30天觀看品類個(gè)數(shù)(cor: 0.44)

          ?30天觀看主播數(shù) (cor: 0.37)

          ?30天日均觀看時(shí)長(zhǎng)(cor: 0.26)


           轉(zhuǎn)發(fā)擴(kuò)散,點(diǎn)擊好看↓↓ 

          瀏覽 82
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线无码免费观看 | 中国乱伦毛片 | 九九成人大香蕉 | 日批视频大全 | 亚洲香蕉第一页 |