<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          精華: 數(shù)據(jù)分析之?dāng)?shù)據(jù)預(yù)處理、分析建模、可視化

          共 12322字,需瀏覽 25分鐘

           ·

          2022-01-21 01:20


          思維導(dǎo)圖

          1. 數(shù)據(jù)分析概述

          1.1 簡(jiǎn)介

          數(shù)據(jù)分析:對(duì)大量有序或無(wú)序的數(shù)據(jù)進(jìn)行信息的集中整合、運(yùn)算提取、展示等操作,通過(guò)這些操作找出研究對(duì)象的內(nèi)在規(guī)律。目的:揭示事物運(yùn)動(dòng)、變化、發(fā)展的規(guī)律。意義:提高系統(tǒng)運(yùn)行效率、優(yōu)化系統(tǒng)作業(yè)流程、預(yù)測(cè)未來(lái)發(fā)展趨勢(shì)。

          1.2 發(fā)展歷程

          數(shù)據(jù)分析的發(fā)展歷程的三個(gè)階段: 1.0 商業(yè)智能(BI)

          通過(guò)商業(yè)智能,將數(shù)據(jù)分析人員從大量、簡(jiǎn)陋的數(shù)據(jù)圖表分析中解放出來(lái),通過(guò)數(shù)據(jù)倉(cāng)庫(kù)整合企業(yè)數(shù)據(jù),采用商業(yè)智能(BI, Business Intelligence)報(bào)表工具實(shí)現(xiàn)美觀清晰、模塊化、動(dòng)態(tài)更新的數(shù)據(jù)可視化展示,讓管理層或決策者能夠基于事實(shí)結(jié)果做決策。

          2.0 大數(shù)據(jù)分析

          隨著互聯(lián)網(wǎng)的發(fā)展,全世界2020年產(chǎn)生的數(shù)據(jù)約為50ZB,而且每年都在增長(zhǎng),傳統(tǒng)的商業(yè)智能數(shù)據(jù)分析已經(jīng)滿足不了企業(yè)對(duì)如此大量、復(fù)雜的數(shù)據(jù)進(jìn)行處理分析。企業(yè)需要更加強(qiáng)大的數(shù)據(jù)分析工具,比如大數(shù)據(jù)開(kāi)發(fā)框架,它能支持企業(yè)海量數(shù)據(jù)運(yùn)行和分析,結(jié)合商業(yè)智能報(bào)表工具,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)監(jiān)控和展示,并且能夠通過(guò)對(duì)歷史數(shù)據(jù)分析建立相應(yīng)的預(yù)測(cè)模型,對(duì)未來(lái)趨勢(shì)進(jìn)行預(yù)測(cè)。

          3.0 數(shù)據(jù)中臺(tái)

          由于企業(yè)不同部門(mén)業(yè)務(wù)不同等的差異,采用的數(shù)據(jù)處理系統(tǒng)或框架也可能不一樣。這樣導(dǎo)致企業(yè)各部門(mén)或不同的系統(tǒng)數(shù)據(jù)相互獨(dú)立、隔離,不能實(shí)現(xiàn)企業(yè)數(shù)據(jù)真正的互通、互融,使得數(shù)據(jù)的整體價(jià)值難以更好的體現(xiàn)。互聯(lián)網(wǎng)行業(yè)的人一般都聽(tīng)說(shuō)過(guò)前端和后端(或稱前臺(tái)、后臺(tái)),中臺(tái)是什么?前端是直達(dá)用戶的系統(tǒng),如門(mén)戶網(wǎng)站、手機(jī)APP、公眾號(hào)等;后端是業(yè)務(wù)管理的系統(tǒng)集合,如財(cái)務(wù)系統(tǒng)、ERP系統(tǒng)及基礎(chǔ)設(shè)施、存儲(chǔ)計(jì)算平臺(tái)等;而中臺(tái)是與前臺(tái)、后臺(tái)對(duì)應(yīng)的概念,中臺(tái)可以讓數(shù)據(jù)在數(shù)據(jù)平臺(tái)和業(yè)務(wù)系統(tǒng)之間形成一個(gè)良性的閉環(huán)。數(shù)據(jù)中臺(tái) 是指通過(guò)數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)一標(biāo)準(zhǔn)和口徑,是一個(gè)數(shù)據(jù)管理體系,內(nèi)容涉及全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)規(guī)劃、規(guī)范定義、建模研發(fā)、連接萃取、運(yùn)維監(jiān)控等。數(shù)據(jù)中臺(tái)作為一個(gè)整體,輸出統(tǒng)一、規(guī)范、標(biāo)準(zhǔn)的大數(shù)據(jù)資產(chǎn),為企業(yè)或客戶提供高效服務(wù)。以下是前臺(tái)、數(shù)據(jù)中臺(tái)、后臺(tái)之間的關(guān)系圖:

          1.3 應(yīng)用領(lǐng)域

          數(shù)據(jù)分析早已滲透各行業(yè)各業(yè),主要包含:互聯(lián)網(wǎng)、電子商務(wù)、金融保險(xiǎn)、在線教育、生產(chǎn)制造、生物醫(yī)療、交通物流、餐飲外賣、能源、城市管理、體育娛樂(lè)等行業(yè)。

          1.4 開(kāi)發(fā)流程

          數(shù)據(jù)分析開(kāi)發(fā)流程一般分為下面5個(gè)階段,主要包含:數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)建模、數(shù)據(jù)分析、數(shù)據(jù)可視化

          數(shù)據(jù)采集: 數(shù)據(jù)通常來(lái)自于企業(yè)內(nèi)部或外部,企業(yè)內(nèi)部數(shù)據(jù)可以直接從系統(tǒng)獲得,外部數(shù)據(jù)則需要購(gòu)買,或者通過(guò)爬蟲(chóng)等數(shù)據(jù)采集工具采集;數(shù)據(jù)處理: 獲取到的數(shù)據(jù)往往會(huì)包含一些干擾數(shù)據(jù)、不完整數(shù)據(jù),因此一般需要對(duì)數(shù)據(jù)做相應(yīng)的處理;數(shù)據(jù)建模: 不同的業(yè)務(wù)對(duì)數(shù)據(jù)的需求不同,根據(jù)相關(guān)業(yè)務(wù)或戰(zhàn)略需求建立相應(yīng)的數(shù)據(jù)模型,有針對(duì)性進(jìn)行主題分析;數(shù)據(jù)分析: 根據(jù)模型中要分析或計(jì)算的指標(biāo),采用相應(yīng)的分析方法進(jìn)行數(shù)據(jù)分析,得出目標(biāo)分析結(jié)果;數(shù)據(jù)可視化: 將數(shù)據(jù)分析結(jié)果進(jìn)行可視化展示,使其更加方便業(yè)務(wù)人員或決策者理解。

          2. 數(shù)據(jù)類型

          2.1 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)

          結(jié)構(gòu)化數(shù)據(jù): 指以行、列等數(shù)據(jù)結(jié)構(gòu)模型存儲(chǔ),有嚴(yán)格維度劃分或?qū)傩詷?biāo)注的數(shù)據(jù),如實(shí)驗(yàn)表數(shù)據(jù)、關(guān)系型數(shù)據(jù)庫(kù)的表記錄等都是結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù): 與結(jié)構(gòu)化數(shù)據(jù)相對(duì)應(yīng),比如軟件系統(tǒng)產(chǎn)生的日志、一封郵件、HTML網(wǎng)頁(yè)、一張圖片、一段微信聊天記錄等。顯然結(jié)構(gòu)化數(shù)據(jù)更易于做數(shù)據(jù)分析,很多數(shù)據(jù)分析模型都只能使用結(jié)構(gòu)化數(shù)據(jù),因此遇到非結(jié)構(gòu)化數(shù)據(jù)時(shí),我們一般會(huì)先將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),再進(jìn)行數(shù)據(jù)分析。

          2.2 定性與定量數(shù)據(jù)

          定性數(shù)據(jù): 指描述事物的屬性、類別、特征的數(shù)據(jù),不能進(jìn)行加減乘除等數(shù)學(xué)計(jì)算,一般是字符型,包含漢字、字母、數(shù)字、符號(hào)等;定量數(shù)據(jù): 指描述事物的數(shù)量、大小或多少的數(shù)據(jù),可以進(jìn)行加減乘除等數(shù)學(xué)計(jì)算,一般是數(shù)值型,包含整數(shù)、浮點(diǎn)數(shù)等;

          2.3 截面數(shù)據(jù)與時(shí)間序列數(shù)據(jù)

          截面數(shù)據(jù)(cross section data): 是在同一時(shí)間(時(shí)期或時(shí)點(diǎn))截面上搜集的數(shù)據(jù)。橫截面數(shù)據(jù)不要求統(tǒng)計(jì)對(duì)象及其范圍相同,但要求統(tǒng)計(jì)的時(shí)間相同,也就是說(shuō)必須是同一時(shí)間截面上的數(shù)據(jù)。時(shí)間序列數(shù)據(jù)(time series data): 是在多個(gè)不同時(shí)間點(diǎn)上搜集的數(shù)據(jù)。這類數(shù)據(jù)反映了某一事物、現(xiàn)象等隨時(shí)間的變化狀態(tài)或程度。面板數(shù)據(jù)(Panel Data): 也叫“平行數(shù)據(jù)”,是指在時(shí)間序列上取多個(gè)截面,這些截面的樣本數(shù)據(jù)稱為面板數(shù)據(jù)。面板數(shù)據(jù)是一個(gè)m*n的數(shù)據(jù)矩陣,記載的是n個(gè)時(shí)間節(jié)點(diǎn)上,m個(gè)對(duì)象的某一數(shù)據(jù)指標(biāo)。

          3. 數(shù)據(jù)來(lái)源

          數(shù)據(jù)的來(lái)源主要分為兩大類,企業(yè) 外部來(lái)源 和 內(nèi)部來(lái)源

          外部來(lái)源 :外包購(gòu)買、網(wǎng)路爬取、免費(fèi)開(kāi)源數(shù)據(jù)等;內(nèi)部來(lái)源:銷售數(shù)據(jù)、社交通信數(shù)據(jù)、考勤數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、服務(wù)器日志數(shù)據(jù)等;

          常見(jiàn)購(gòu)買平臺(tái):

          東湖大數(shù)據(jù):提供氣象數(shù)據(jù)、車輛數(shù)據(jù)、企業(yè)數(shù)據(jù)、征信數(shù)據(jù)、電商數(shù)據(jù)、旅游數(shù)據(jù)等行業(yè)數(shù)據(jù)服務(wù)。

          數(shù)據(jù)堂:提供智能家居、駕駛、文娛等數(shù)據(jù)服務(wù)。

          IT桔子:提供互聯(lián)網(wǎng)創(chuàng)業(yè)投資項(xiàng)目信息數(shù)據(jù)庫(kù)和商業(yè)信息服務(wù)的公司。

          互聯(lián)網(wǎng)上的“開(kāi)放數(shù)據(jù)”來(lái)源,如政府機(jī)構(gòu)、非營(yíng)利組織和企業(yè)免費(fèi)提供的數(shù)據(jù)。以下是一些常用的開(kāi)發(fā)數(shù)據(jù)平臺(tái),包括金融財(cái)經(jīng)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、政府?dāng)?shù)據(jù)等。開(kāi)源數(shù)據(jù)平臺(tái)網(wǎng)站資源地址:

          4. 數(shù)據(jù)預(yù)處理方法

          數(shù)據(jù)預(yù)處理方法主要有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。

          4.1 數(shù)據(jù)清洗

          數(shù)據(jù)清洗(data cleaning) :是通過(guò)填補(bǔ)缺失值、光滑噪聲數(shù)據(jù),平滑或刪除離群點(diǎn),糾正數(shù)據(jù)的不一致來(lái)達(dá)到清洗的目的。

          1. 缺失值處理

          實(shí)際開(kāi)發(fā)獲取信息和數(shù)據(jù)的過(guò)程中,會(huì)存在各類的原因?qū)е聰?shù)據(jù)丟失和空缺。針對(duì)這些缺失值的處理方法,主要是基于變量的分布特性和變量的重要性采用不同的方法。主要分為以下幾種:刪除變量: 若變量的缺失率較高(大于80%),覆蓋率較低,且重要性較低,可以直接將變量刪除;統(tǒng)計(jì)量填充: 若缺失率較低(小于95%)且重要性較低,則根據(jù)數(shù)據(jù)分布的情況用基本統(tǒng)計(jì)量填充(最大值、最小值、均值、中位數(shù)、眾數(shù))進(jìn)行填充;插值法填充: 包括隨機(jī)插值、多重差補(bǔ)法、熱平臺(tái)插補(bǔ)、拉格朗日插值、牛頓插值等;模型填充: 使用回歸、貝葉斯、隨機(jī)森林、決策樹(shù)等模型對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè);啞變量(虛擬變量)填充: 若變量是離散型,且不同值較少,可轉(zhuǎn)換成啞變量(通常取值0或1);總結(jié)來(lái)看,常用的做法是:先用Python中的pandas.isnull.sum() 檢測(cè)出變量的缺失比例,考慮刪除或者填充,若需要填充的變量是連續(xù)型,一般采用均值法和隨機(jī)差值進(jìn)行填充,若變量是離散型,通常采用中位數(shù)或啞變量進(jìn)行填充。

          2. 噪聲處理

          噪聲(noise) 是被測(cè)量變量的隨機(jī)誤差或方差,是觀測(cè)點(diǎn)和真實(shí)點(diǎn)之間的誤差。通常的處理辦法:分箱法: 對(duì)數(shù)據(jù)進(jìn)行分箱操作,等頻或等寬分箱,然后用每個(gè)箱的平均數(shù),中位數(shù)或者邊界值(不同數(shù)據(jù)分布,處理方法不同)代替箱中所有的數(shù),起到平滑數(shù)據(jù)的作用;回歸法: 建立該變量和預(yù)測(cè)變量的回歸模型,根據(jù)回歸系數(shù)和預(yù)測(cè)變量,反解出自變量的近似值。

          3. 離群點(diǎn)處理

          異常值(離群點(diǎn))是數(shù)據(jù)分布的常態(tài),處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常被定義為異常或噪聲。異常分為兩種:“偽異常”,由于特定的業(yè)務(wù)運(yùn)營(yíng)動(dòng)作產(chǎn)生,是正常反應(yīng)業(yè)務(wù)的狀態(tài),而不是數(shù)據(jù)本身的異常;“真異常”,不是由于特定的業(yè)務(wù)運(yùn)營(yíng)動(dòng)作產(chǎn)生,而是數(shù)據(jù)本身分布異常,即離群點(diǎn)。主要有以下檢測(cè)離群點(diǎn)的方法:簡(jiǎn)單統(tǒng)計(jì)分析:根據(jù)箱線圖、各分位點(diǎn)判斷是否存在異常,例如Python中pandas的describe函數(shù)可以快速發(fā)現(xiàn)異常值。基于絕對(duì)離差中位數(shù)(MAD):這是一種穩(wěn)健對(duì)抗離群數(shù)據(jù)的距離值方法,采用計(jì)算各觀測(cè)值與平均值的距離總和的方法。放大了離群值的影響。基于距離: 通過(guò)定義對(duì)象之間的臨近性度量,根據(jù)距離判斷異常對(duì)象是否遠(yuǎn)離其他對(duì)象,缺點(diǎn)是計(jì)算復(fù)雜度較高,不適用于大數(shù)據(jù)集和存在不同密度區(qū)域的數(shù)據(jù)集 基于密度: 離群點(diǎn)的局部密度顯著低于大部分近鄰點(diǎn),適用于非均勻的數(shù)據(jù)集 基于聚類: 利用聚類算法,丟棄遠(yuǎn)離其他簇的小簇。

          4. 不一致數(shù)據(jù)處理

          實(shí)際數(shù)據(jù)生產(chǎn)過(guò)程中,由于一些人為因素或者其他原因,記錄的數(shù)據(jù)可能存在不一致的情況,需要對(duì)這些不一致數(shù)據(jù)在分析前需要進(jìn)行清理。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可通過(guò)和原始記錄對(duì)比進(jìn)行更正,知識(shí)工程工具也可以用來(lái)檢測(cè)違反規(guī)則的數(shù)據(jù)。數(shù)據(jù)清洗是一項(xiàng)繁重的任務(wù),需要根據(jù)數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和解釋性來(lái)考察數(shù)據(jù),從而得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù)。

          4.2 數(shù)據(jù)集成

          多個(gè)數(shù)據(jù)源集成時(shí)會(huì)遇到的問(wèn)題:實(shí)體識(shí)別問(wèn)題、冗余問(wèn)題、數(shù)據(jù)值的沖突和處理1. 實(shí)體識(shí)別問(wèn)題 匹配來(lái)自多個(gè)不同信息源的現(xiàn)實(shí)世界實(shí)體,數(shù)據(jù)分析者或計(jì)算機(jī)如何將兩個(gè)不同數(shù)據(jù)庫(kù)中的不同字段名指向同一實(shí)體,通常會(huì)通過(guò)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))來(lái)解決這個(gè)問(wèn)題,避免模式集成時(shí)產(chǎn)生的錯(cuò)誤。2. 冗余問(wèn)題 如果一個(gè)屬性能由另一個(gè)或另一組屬性“導(dǎo)出”,則此屬性可能是冗余的。屬性或維度命名的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。常用的冗余相關(guān)分析方法有皮爾遜積距系數(shù)、卡方檢驗(yàn)、數(shù)值屬性的協(xié)方差等。3. 數(shù)據(jù)值的沖突和處理 不同數(shù)據(jù)源,在統(tǒng)一合并時(shí),保持規(guī)范化,去重。

          4.3 數(shù)據(jù)規(guī)約

          隨著數(shù)據(jù)量的增加,基于傳統(tǒng)的數(shù)據(jù)分析變得非常耗時(shí)和復(fù)雜,往往使得分析不可行。數(shù)據(jù)歸約技術(shù)是用來(lái)得到數(shù)據(jù)集的規(guī)約表示,在接近或保持原始數(shù)據(jù)完整性的同時(shí)將數(shù)據(jù)集規(guī)模大大減小。對(duì)規(guī)約后的數(shù)據(jù)集分析將更有效,并可產(chǎn)生幾乎相同的分析結(jié)果。常見(jiàn)方法有:維度規(guī)約、維度變換、數(shù)值規(guī)約等。

          1. 維度規(guī)約

          用于數(shù)據(jù)分析的數(shù)據(jù)可能包含數(shù)以百計(jì)的屬性,其中大部分屬性與挖掘任務(wù)不相關(guān),是冗余的。維度歸約通過(guò)刪除不相關(guān)的屬性,來(lái)減少數(shù)據(jù)量,并保證信息的損失最小。屬性子集選擇: 目標(biāo)是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。在壓縮的屬性集上挖掘還有其它的優(yōu)點(diǎn),它減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解。單變量重要性: 分析單變量和目標(biāo)變量的相關(guān)性,刪除預(yù)測(cè)能力較低的變量。這種方法不同于屬性子集選擇,通常從統(tǒng)計(jì)學(xué)和信息的角度去分析。如,通過(guò)pearson相關(guān)系數(shù)和卡方檢驗(yàn),分析目標(biāo)變量和單變量的相關(guān)性。

          2. 維度變換

          維度變換是將現(xiàn)有數(shù)據(jù)降低到更小的維度,盡量保證數(shù)據(jù)信息的完整性,提高實(shí)踐中建模的效率。若維度變換后的數(shù)據(jù)只能重新構(gòu)造原始數(shù)據(jù)的近似表示,則該維度變換是有損的,若可以構(gòu)造出原始數(shù)據(jù)而不丟失任何信息,則是無(wú)損的。常見(jiàn)有損維度變換方法:主成分分析、因子分析、奇異值分解、聚類、線性組合主成分分析(PCA)和因子分析(FA): PCA通過(guò)空間映射的方式,將當(dāng)前維度映射到更低的維度,使得每個(gè)變量在新空間的方差最大。FA則是找到當(dāng)前特征向量的公因子(維度更小),用公因子的線性組合來(lái)描述當(dāng)前的特征向量。奇異值分解(SVD): SVD的降維可解釋性較低,且計(jì)算量比PCA大,一般用在稀疏矩陣上降維,例如圖片壓縮,推薦系統(tǒng)。聚類: 將某一類具有相似性的特征聚到單個(gè)變量,從而大大降低維度。線性組合: 將多個(gè)變量做線性回歸,根據(jù)每個(gè)變量的表決系數(shù),賦予變量權(quán)重,可將該類變量根據(jù)權(quán)重組合成一個(gè)變量。

          3. 數(shù)值規(guī)約

          數(shù)值規(guī)約通過(guò)選擇替代的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量。即用較小的數(shù)據(jù)表示替換或估計(jì)數(shù)據(jù)。數(shù)值規(guī)約技術(shù)可以是有參的,也可以是無(wú)參的。如參數(shù)模型(只需要存放模型參數(shù),而不是實(shí)際數(shù)據(jù))或非參數(shù)方法,如聚類、抽樣和直方圖。

          4.4 數(shù)據(jù)變換

          數(shù)據(jù)變換包括對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,離散化,稀疏化處理,達(dá)到適用于挖掘的目的。

          1. 規(guī)范化處理 數(shù)據(jù)中不同特征的量綱可能不一致,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,因此,需要對(duì)數(shù)據(jù)按照一定比例進(jìn)行縮放,使之落在一個(gè)特定的區(qū)域,如[-1,1]區(qū)間,或[0,1]區(qū)間,便于進(jìn)行綜合分析。2. 離散化處理 數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)橐欢味坞x散化的區(qū)間。分段的原則有基于等距離、等頻率或優(yōu)化的方法。3. 稀疏化處理 針對(duì)離散型且標(biāo)稱變量,無(wú)法進(jìn)行有序的LabelEncoder時(shí),通常考慮將變量做0,1啞變量的稀疏化處理,稀疏化處理既有利于模型快速收斂,又能提升模型的抗噪能力。

          5. 數(shù)據(jù)分析模型

          常用數(shù)據(jù)分析模型,主要包括:對(duì)比分析、漏斗分析、留存分析、A/B測(cè)試、用戶行為路徑分析、用戶分群、用戶畫(huà)像分析等。

          5.1 對(duì)比分析

          對(duì)比分析 主要是指將兩個(gè)相互聯(lián)系的指標(biāo)數(shù)據(jù)進(jìn)行比較,從數(shù)量上展示和說(shuō)明研究對(duì)象的規(guī)模大小,水平高低,速度快慢等相對(duì)數(shù)值, 通過(guò)相同維度下的指標(biāo)對(duì)比,可以發(fā)現(xiàn),找出業(yè)務(wù)在不同階段的問(wèn)題。常見(jiàn)的對(duì)比方法包括:時(shí)間對(duì)比,空間對(duì)比,標(biāo)準(zhǔn)對(duì)比時(shí)間對(duì)比: 包含同比、環(huán)比、定基比,時(shí)間不同其他條件相同。例如:本周和上周進(jìn)行對(duì)比就是環(huán)比;本月第一周和上月第一周對(duì)比就是同比;所有數(shù)據(jù)同今年的第一周對(duì)比則為定基比。通過(guò)三種方式,可以分析業(yè)務(wù)增長(zhǎng)水平,速度等信息。空間對(duì)比: 就是同類現(xiàn)象或指標(biāo)在同一時(shí)間不同空間的指標(biāo)數(shù)值進(jìn)行對(duì)比。例如:6月份淘寶成交額與天貓成交額對(duì)比就是空間對(duì)比。標(biāo)準(zhǔn)對(duì)比: 對(duì)某指標(biāo)設(shè)定標(biāo)準(zhǔn)值,該指標(biāo)所有數(shù)據(jù)與標(biāo)準(zhǔn)值對(duì)比。例如:學(xué)生成績(jī)及格設(shè)定在60,大于等于60的為及格,小于的60則為不及格,這就是標(biāo)準(zhǔn)對(duì)比。

          5.2 漏斗分析

          漏斗分析模型是一套流程式數(shù)據(jù)分析,它能夠科學(xué)反映用戶行為狀態(tài)以及從起點(diǎn)到終點(diǎn)各階段用戶轉(zhuǎn)化率情況的重要分析模型。漏斗分析模型已經(jīng)廣泛應(yīng)用于流量監(jiān)控、產(chǎn)品目標(biāo)轉(zhuǎn)化等日常數(shù)據(jù)運(yùn)營(yíng)與數(shù)據(jù)分析的工作中。

          5.3 留存分析

          留存分析是一種用來(lái)分析用戶參與情況/活躍程度的分析模型,考察進(jìn)行初始行為的用戶中,有多少人會(huì)進(jìn)行后續(xù)行為。這是用來(lái)衡量產(chǎn)品對(duì)用戶價(jià)值高低的重要方法。

          留存分析可以幫助回答以下問(wèn)題:

          1. 一個(gè)新客戶在未來(lái)的一段時(shí)間內(nèi)是否完成了您期許用戶完成的行為?如支付訂單等。1. 某個(gè)社交產(chǎn)品改進(jìn)了新注冊(cè)用戶的引導(dǎo)流程,期待改善用戶注冊(cè)后的參與程度,如何驗(yàn)證?

          5.4 A/B測(cè)試

          A/B測(cè)試是指將產(chǎn)品的兩個(gè)或多個(gè)版本,在同一時(shí)間維度,分別讓類似訪客群組來(lái)訪問(wèn),收集各群組的用戶體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析評(píng)估出最好版本正式采用。

          比如:你發(fā)現(xiàn)漏斗轉(zhuǎn)化中間有漏洞,假設(shè)一定是商品價(jià)格問(wèn)題導(dǎo)致了流失,你看到了問(wèn)題-漏斗,也想出了主意-改變定價(jià)。但主意是否正確,要看真實(shí)的用戶反應(yīng),于是采用AB測(cè)試,一部分用戶還是看到老價(jià)格,一部分用戶看到新價(jià)格,若你的主意真的管用,新價(jià)格就應(yīng)該有更好的轉(zhuǎn)化,若真如此,新價(jià)格就應(yīng)該確定下來(lái),如此反復(fù)優(yōu)化。

          5.5 用戶行為路徑分析

          用戶路徑分析即用戶在APP或網(wǎng)站中的訪問(wèn)路徑。用戶路徑的分析結(jié)果通常以桑基圖形式展現(xiàn),以目標(biāo)事件為起點(diǎn)/終點(diǎn),詳細(xì)查看后續(xù)/前置路徑,可以詳細(xì)查看某個(gè)節(jié)點(diǎn)事件的流向。用戶路徑分析能夠可視化用戶流,全面了解用戶整體行為路徑,定位影響轉(zhuǎn)化的主次因素,方便產(chǎn)品設(shè)計(jì)的優(yōu)化與改進(jìn)。

          5.6 用戶分群

          用戶分群即用戶信息標(biāo)簽化,通過(guò)用戶的歷史行為路徑、行為特征、偏好等屬性將具有相同屬性的用戶劃分為一個(gè)群體,并進(jìn)行后續(xù)分析。因?yàn)槿后w特征不同,行為會(huì)有很大差別,因此可以根據(jù)歷史數(shù)據(jù)將用戶進(jìn)行劃分,進(jìn)而再次觀察該群體的具體行為。用戶分群關(guān)注群體差異,幫助企業(yè)打破數(shù)據(jù)孤島并真實(shí)了解用戶,讓企業(yè)定位營(yíng)銷目標(biāo)群體,幫助企業(yè)實(shí)現(xiàn)精準(zhǔn)、高效營(yíng)銷。

          5.7 用戶畫(huà)像

          用戶畫(huà)像分析是基于自動(dòng)標(biāo)簽系統(tǒng)將用戶完整的畫(huà)像描繪清晰。常用的畫(huà)像標(biāo)簽類別有:基本屬性、心理特征、興趣愛(ài)好、購(gòu)買能力、行為特征、社交網(wǎng)絡(luò)等。

          6. 數(shù)據(jù)分析方法

          常用數(shù)據(jù)分析方法:描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、信度分析、相關(guān)分析、方差分析、回歸分析、聚類分析、判別分析、主成分分析、因子分析、時(shí)間序列分析等。

          6.1 描述性統(tǒng)計(jì)分析

          描述性統(tǒng)計(jì)分析是通過(guò)圖表或數(shù)學(xué)方法,對(duì)數(shù)據(jù)資料進(jìn)行整理、分析,并對(duì)數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間關(guān)系進(jìn)行估計(jì)和描述的方法。描述統(tǒng)計(jì)分為集中趨勢(shì)分析和離中趨勢(shì)分析集中趨勢(shì)分析:主要靠平均數(shù)、中數(shù)、眾數(shù)等統(tǒng)計(jì)指標(biāo)來(lái)表示數(shù)據(jù)的集中趨勢(shì)。離中趨勢(shì)分析:主要靠全距、四分差、平均差、方差(協(xié)方差:用來(lái)度量?jī)蓚€(gè)隨機(jī)變量關(guān)系的統(tǒng)計(jì)量)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)指標(biāo)來(lái)研究數(shù)據(jù)的離中趨勢(shì)。

          6.2 假設(shè)檢驗(yàn)

          假設(shè)檢驗(yàn)簡(jiǎn)單來(lái)說(shuō)先憑借自己的直覺(jué),經(jīng)驗(yàn),知識(shí)的儲(chǔ)備做出合理的假設(shè),再通過(guò)數(shù)據(jù)進(jìn)行驗(yàn)證假設(shè)是否正確。主要包含:參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)。

          1. 參數(shù)檢驗(yàn)

          參數(shù)檢驗(yàn)是在已知總體分布的條件下(一般要求總體服從正態(tài)分布)對(duì)一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗(yàn) ,常用參數(shù)檢驗(yàn)方法有:U檢驗(yàn)法、T檢驗(yàn)法

          2. 非參數(shù)檢驗(yàn)

          非參數(shù)檢驗(yàn)則不考慮總體分布是否已知,常常也不是針對(duì)總體參數(shù),而是針對(duì)總體的某些一股性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗(yàn)。常用非參數(shù)檢驗(yàn)方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)等。

          6.3 信度分析

          信度(Reliability) :即可靠性,它是指采用同樣的方法對(duì)同一對(duì)象重復(fù)測(cè)量時(shí)所得結(jié)果的一致性程度。一般多用于性格測(cè)試、問(wèn)卷調(diào)查等。信度指標(biāo)多以相關(guān)系數(shù)表示,大致可分為三類:穩(wěn)定系數(shù)(跨時(shí)間的一致性),等值系數(shù)(跨形式的一致性)和內(nèi)在一致性系數(shù)(跨項(xiàng)目的一致性)。信度分析的方法主要有以下四種:重測(cè)信度法、復(fù)本信度法、折半信度法、α信度系數(shù)法。

          重測(cè)信度法: 用同樣的問(wèn)卷對(duì)同一組被調(diào)查者間隔一定時(shí)間重復(fù)施測(cè),計(jì)算兩次施測(cè)結(jié)果的相關(guān)系數(shù)。顯然,重測(cè)信度屬于穩(wěn)定系數(shù)。重測(cè)信度法特別適用于事實(shí)式問(wèn)卷,如性別、出生年月等在兩次施測(cè)中不應(yīng)有任何差異,大多數(shù)被調(diào)查者的興趣、愛(ài)好、習(xí)慣等在短時(shí)間內(nèi)也不會(huì)有十分明顯的變化。如果沒(méi)有突發(fā)事件導(dǎo)致被調(diào)查者的態(tài)度、意見(jiàn)突變,這種方法也適用于態(tài)度、意見(jiàn)式問(wèn)卷。由于重測(cè)信度法需要對(duì)同一樣本試測(cè)兩次,被調(diào)查者容易受到各種事件、活動(dòng)和他人的影響,而且間隔時(shí)間長(zhǎng)短也有一定限制,因此在實(shí)施中有一定困難。

          復(fù)本信度法: 讓同一組被調(diào)查者一次填答兩份問(wèn)卷復(fù)本,計(jì)算兩個(gè)復(fù)本的相關(guān)系數(shù)。復(fù)本信度屬于等值系數(shù)。復(fù)本信度法要求兩個(gè)復(fù)本除表述方式不同外,在內(nèi)容、格式、難度和對(duì)應(yīng)題項(xiàng)的提問(wèn)方向等方面要完全一致,而在實(shí)際調(diào)查中,很難使調(diào)查問(wèn)卷達(dá)到這種要求,因此采用這種方法者較少。

          折半信度法: 是將調(diào)查項(xiàng)目分為兩半,計(jì)算兩半得分的相關(guān)系數(shù),進(jìn)而估計(jì)整個(gè)量表的信度。折半信度屬于內(nèi)在一致性系數(shù),測(cè)量的是兩半題項(xiàng)得分間的一致性。

          這種方法一般不適用于事實(shí)式問(wèn)卷(如年齡與性別無(wú)法相比),常用于態(tài)度、意見(jiàn)式問(wèn)卷的信度分析。在問(wèn)卷調(diào)查中,態(tài)度測(cè)量最常見(jiàn)的形式是5級(jí)李克特(Likert)量表。進(jìn)行折半信度分析時(shí),如果量表中含有反意題項(xiàng),應(yīng)先將反意題項(xiàng)的得分作逆向處理,以保證各題項(xiàng)得分方向的一致性,然后將全部題項(xiàng)按奇偶或前后分為盡可能相等的兩半,計(jì)算二者的相關(guān)系數(shù)(rhh,即半個(gè)量表的信度系數(shù)),最后用斯皮爾曼-布朗(Spearman-Brown)公式求出整個(gè)量表的信度系數(shù)(ru)。

          α信度系數(shù)法: 是目前最常用的信度系數(shù),其公式為:α=(k/(k-1))*(1-(∑Si2)/ST2)

          其中,K為量表中題項(xiàng)的總數(shù), Si^2為第i題得分的題內(nèi)方差, ST^2為全部題項(xiàng)總得分的方差。從公式中可以看出,α系數(shù)評(píng)價(jià)的是量表中各題項(xiàng)得分間的一致性,屬于內(nèi)在一致性系數(shù)。這種方法適用于態(tài)度、意見(jiàn)式問(wèn)卷(量表)的信度分析。

          總量表的信度系數(shù)最好在0.8以上,0.7-0.8之間可以接受;分量表的信度系數(shù)最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha系數(shù)如果在0.6以下就要考慮重新編問(wèn)卷。

          6.4 方差分析

          方差分析其實(shí)就是假設(shè)檢驗(yàn)中的F-檢驗(yàn),主要針對(duì)的是兩個(gè)及以上樣本均值差別的顯著檢驗(yàn)。通過(guò)分析研究中不同來(lái)源的變異對(duì)總變異的貢獻(xiàn)大小,從而確定可控因素對(duì)研究結(jié)果影響力的大小。使用條件:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來(lái)自正態(tài)分布總體;各總體方差相等。單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系;多因素有交互方差分析:一頊實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系;多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒(méi)有影響關(guān)系或忽略影響關(guān)系;協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機(jī)因素,使之影響了分祈結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對(duì)修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來(lái)的一種分析方法。

          6.5 相關(guān)分析

          相關(guān)分析:研究現(xiàn)象之間是否存在某種依存關(guān)系,對(duì)具體有依存關(guān)系的現(xiàn)象探討相關(guān)方向及相關(guān)程度。例如,人的身高和體重之間;空氣中的相對(duì)濕度與降雨量之間是否存在依存關(guān)系,都是相關(guān)分析研究的問(wèn)題。

          相關(guān)分析的方法很多,初級(jí)的方法可以快速發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,如正相關(guān),負(fù)相關(guān)或不相關(guān)。中級(jí)的方法可以對(duì)數(shù)據(jù)間關(guān)系的強(qiáng)弱進(jìn)行度量,如完全相關(guān),不完全相關(guān)等。高級(jí)的方法可以將數(shù)據(jù)間的關(guān)系轉(zhuǎn)化為模型,并通過(guò)模型對(duì)未來(lái)的業(yè)務(wù)發(fā)展進(jìn)行預(yù)測(cè)。例如:以下是每日廣告曝光量和費(fèi)用成本的數(shù)據(jù),每一行代表一天中的花費(fèi)和獲得的廣告曝光數(shù)量。憑經(jīng)驗(yàn)判斷,這兩組數(shù)據(jù)間應(yīng)該存在聯(lián)系,但僅通過(guò)這兩組數(shù)據(jù)我們無(wú)法證明這種關(guān)系真實(shí)存在,也無(wú)法對(duì)這種關(guān)系的強(qiáng)度進(jìn)行度量。因此我們希望通過(guò)相關(guān)分析來(lái)找出這兩組數(shù)據(jù)之間的關(guān)系,并對(duì)這種關(guān)系進(jìn)度度量。 單純從數(shù)據(jù)的角度很難發(fā)現(xiàn)其中的趨勢(shì)和聯(lián)系,而將數(shù)據(jù)點(diǎn)繪制成圖表后趨勢(shì)和聯(lián)系就會(huì)變的清晰起來(lái)。對(duì)于有明顯時(shí)間維度的數(shù)據(jù),我們選擇使用折線圖和散點(diǎn)圖分別進(jìn)行分析。

          1. 通過(guò)折線圖

          為了更清晰的對(duì)比這兩組數(shù)據(jù)的變化和趨勢(shì),我們使用雙坐標(biāo)軸折線圖,其中主坐標(biāo)軸用來(lái)繪制廣告曝光量數(shù)據(jù),次坐標(biāo)軸用來(lái)繪制費(fèi)用成本的數(shù)據(jù)。通過(guò)折線圖可以發(fā)現(xiàn),費(fèi)用成本和廣告曝光量?jī)山M數(shù)據(jù)的變化和趨勢(shì)大致相同,從整體的大趨勢(shì)來(lái)看,費(fèi)用成本和廣告曝光量?jī)山M數(shù)據(jù)都呈現(xiàn)增長(zhǎng)趨勢(shì)。從規(guī)律性來(lái)看費(fèi)用成本和廣告曝光量數(shù)據(jù)每次的最低點(diǎn)都出現(xiàn)在同一天。從細(xì)節(jié)來(lái)看,兩組數(shù)據(jù)的短期趨勢(shì)的變化也基本一致。經(jīng)過(guò)以上這些對(duì)比,我們可以說(shuō)廣告曝光量和費(fèi)用成本之間有一些相關(guān)關(guān)系,但這種方法在整個(gè)分析過(guò)程和解釋上過(guò)于復(fù)雜,如果換成復(fù)雜一點(diǎn)的數(shù)據(jù)或者相關(guān)度較低的數(shù)據(jù)就會(huì)出現(xiàn)很多問(wèn)題。

          2. 通過(guò)散點(diǎn)圖

          比折線圖更直觀的是散點(diǎn)圖。散點(diǎn)圖去除了時(shí)間維度的影響,只關(guān)注廣告曝光量和費(fèi)用成本這里兩組數(shù)據(jù)間的關(guān)系。在繪制散點(diǎn)圖之前,我們將費(fèi)用成本標(biāo)識(shí)為X,也就是自變量,將廣告曝光量標(biāo)識(shí)為y,也就是因變量。下面是一張根據(jù)每一天中廣告曝光量和費(fèi)用成本數(shù)據(jù)繪制的散點(diǎn)圖,X軸是自變量費(fèi)用成本數(shù)據(jù),Y軸是因變量廣告曝光量數(shù)據(jù)。從數(shù)據(jù)點(diǎn)的分布情況可以發(fā)現(xiàn),自變量x和因變量y有著相同的變化趨勢(shì),當(dāng)費(fèi)用成本的增加后,廣告曝光量也隨之增加。 折線圖和散點(diǎn)圖都清晰的表示了廣告曝光量和費(fèi)用成本兩組數(shù)據(jù)間的相關(guān)關(guān)系,優(yōu)點(diǎn)是對(duì)相關(guān)關(guān)系的展現(xiàn)清晰,缺點(diǎn)是無(wú)法對(duì)相關(guān)關(guān)系進(jìn)行準(zhǔn)確的度量,缺乏說(shuō)服力。并且當(dāng)數(shù)據(jù)超過(guò)兩組時(shí)也無(wú)法完成各組數(shù)據(jù)間的相關(guān)分析。若要通過(guò)具體數(shù)字來(lái)度量?jī)山M或兩組以上數(shù)據(jù)間的相關(guān)關(guān)系,需要使用第二種方法:協(xié)方差。具體參考:

          6.6 回歸分析

          回歸分析研究的是因變量和自變量之間的定量關(guān)系,運(yùn)用十分廣泛,可以用于房?jī)r(jià)預(yù)測(cè)、銷售額度預(yù)測(cè)、貸款額度預(yù)測(cè)等。常見(jiàn)的回歸分析有線性回歸、非線性回歸、有序回歸、嶺回歸、加權(quán)回歸等。線性回歸(Linear regression) :是利用回歸方程(函數(shù))對(duì)一個(gè)或多個(gè)自變量(特征值)和因變量(目標(biāo)值)之間關(guān)系進(jìn)行建模的一種分析方式。一元線性回歸分析: 只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布。多元線性回歸分析:分析多個(gè)自變量與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布 。Logistic回歸分析:Logistic回歸模型對(duì)因變量的分布沒(méi)有要求,一般用于因變量是離散時(shí)的情況。Logistic回歸分為條件Logistic回歸和非條件Logistic回歸,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計(jì)是否用到了條件概率。

          回歸分析與相關(guān)分析的聯(lián)系:

          1. 相關(guān)分析是回歸分析的基礎(chǔ)和前提。假若對(duì)所研究的客觀現(xiàn)象不進(jìn)行相關(guān)分析,直接作回歸分析,則這樣建立的回歸方程往往沒(méi)有實(shí)際意義。只有通過(guò)相關(guān)分析,確定客觀現(xiàn)象之間確實(shí)存在數(shù)量上的依存關(guān)系,而且其關(guān)系值又不確定的條件下,再進(jìn)行回歸分析,在此基礎(chǔ)上建立回歸方程才有實(shí)際意義。1. 回歸分析是相關(guān)分析的深入和繼續(xù)。對(duì)所研究現(xiàn)象只作相關(guān)分析,僅說(shuō)明現(xiàn)象之間具有密切的相關(guān)關(guān)系是不夠的,統(tǒng)計(jì)上研究現(xiàn)象之間具有相關(guān)關(guān)系的目的,就是要通過(guò)回歸分析,將具有依存關(guān)系的變量間的不確定的數(shù)量關(guān)系加以確定,然后由已知自變量值推算未知因變量的值,只有這樣,相關(guān)分析才具有實(shí)際意義。1. 回歸分析側(cè)重于研究隨機(jī)變量間的依賴關(guān)系,以便用一個(gè)變量去預(yù)測(cè)另一個(gè)變量;相關(guān)分析側(cè)重于發(fā)現(xiàn)隨機(jī)變量間的種種相關(guān)特性。

          6.7 聚類分析

          聚類分析是指樣本個(gè)體或指標(biāo)變量按其具有的特性進(jìn)行分類,尋找合理的度量事物相似性的統(tǒng)計(jì)量。通常,我們遇到的很多數(shù)據(jù)都沒(méi)有很明確或具體的分類標(biāo)簽,我們利用聚類分析將看似無(wú)序的對(duì)象進(jìn)行分組、歸類,以達(dá)到更好地理解研究對(duì)象的目的。聚類結(jié)果要求組內(nèi)對(duì)象相似性較高,組間對(duì)象相似性較低。

          在用戶研究中,很多問(wèn)題可以借助聚類分析來(lái)解決,比如,網(wǎng)站的信息分類問(wèn)題、網(wǎng)頁(yè)的點(diǎn)擊行為關(guān)聯(lián)性問(wèn)題以及用戶分類問(wèn)題等等。其中,用戶分類是最常見(jiàn)的情況。常見(jiàn)的聚類方法有不少,比如K均值(K-Means),譜聚類(Spectral Clustering),層次聚類(Hierarchical Clustering) 等。聚類分析是一種缺乏分類標(biāo)簽的分類方法,當(dāng)我們對(duì)數(shù)據(jù)進(jìn)行聚類并得到簇后,一般會(huì)單獨(dú)對(duì)每個(gè)類進(jìn)行深入分析,從而得到更加細(xì)致的結(jié)果。

          以最為常見(jiàn)的K-means為例,K-means聚類步驟圖解如下:

          1、隨機(jī)設(shè)置K個(gè)特征空間內(nèi)的點(diǎn)作為初始的聚類中心,比如圖2中的紅藍(lán)黃三個(gè)點(diǎn)作為聚類中心(圖1–>圖2);2、對(duì)于其他每個(gè)點(diǎn)計(jì)算到K個(gè)中心的距離,未知的點(diǎn)選擇最近的一個(gè)聚類中心點(diǎn)作為標(biāo)記類別(圖3–>圖4);3、接著對(duì)著標(biāo)記的聚類中心,重新計(jì)算出每個(gè)聚類的新中心點(diǎn)(平均值)((圖5–>圖6));4、如果計(jì)算得出的新中心點(diǎn)與原中心點(diǎn)一樣,那么結(jié)束,否則重新進(jìn)行第二步過(guò)程;

          6.8 判別分析

          判別分析:根據(jù)已掌握的一批分類明確的樣品建立判別函數(shù),使產(chǎn)生錯(cuò)判的事例最少,進(jìn)而對(duì)給定的一個(gè)新樣品,判斷它來(lái)自哪個(gè)總體

          Fisher判別分析法 : 以距離為判別準(zhǔn)則來(lái)分類,即樣本與哪個(gè)類的距離最短就分到哪一類, 適用于兩類判別;以概率為判別準(zhǔn)則來(lái)分類,即樣本屬于哪一類的概率較大就分到哪一類,適用于適用于多類判別。

          BAYES判別分析法 : BAYES判別分析法比FISHER判別分析法更加完善和先進(jìn),它不僅能解決多類判別分析,而且分析時(shí)考慮了數(shù)據(jù)的分布狀態(tài),所以一般較多使用。

          6.9 主成分分析與因子分析

          主成分分析(PCA): 主要是利用降維的思想,將K維數(shù)據(jù)映射到N維上,N維是全新的正交特征。

          因子分析: 用少數(shù)的幾個(gè)因子去描述因素之間的關(guān)系,把冗余,雜亂的變量歸結(jié)于幾個(gè)主要的不相關(guān)的因子。類似于初中學(xué)因式分解。具體的方法有很多,如重心法、影像分析法,最大似然解、最小平*方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。

          主成分分析與因子分析的區(qū)別:

          主成分分析做的僅為變量變換,將原始變量進(jìn)行線性組合得到互相正交的新變量。因子分析需要構(gòu)造因子模型,用潛在的假想變量(不可觀測(cè)的潛在變量)和隨機(jī)影響變量的線性組合表示原始變量。

          6.10 時(shí)間序列分析

          數(shù)據(jù)序列分析:是動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律,以用于解決實(shí)際問(wèn)題。

          時(shí)間序列通常由4種要素組成:趨勢(shì)、季節(jié)變動(dòng)、循環(huán)波動(dòng)和不規(guī)則波動(dòng)

          主要方法:移動(dòng)平均濾波與指數(shù)平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型。

          7. 數(shù)據(jù)可視化

          7.1 常見(jiàn)數(shù)據(jù)可視化圖表

          常見(jiàn)數(shù)據(jù)可視化圖表有:柱狀圖、折線圖、餅圖、散點(diǎn)圖、雷達(dá)圖、箱型圖、氣泡圖、詞頻圖、桑基圖、熱力圖、關(guān)系圖、漏斗圖等。

          7.2 常用數(shù)據(jù)可視化工具

          常見(jiàn)數(shù)據(jù)可視化工具有:Excel、BI工具(PowerBI、Tableau、FineBI)、Python 等。

          1. Excel

          如下圖:PowerView是Excel里面數(shù)據(jù)可視化功能區(qū),PowerMap是Excel的三維地圖可視化區(qū)域。

          2. BI工具

          PowerBI、Tableau、FineBI等都是常用BI可視化工具,功能大同小異,以PowerBI簡(jiǎn)單介紹一下。PowerBI 其實(shí)相當(dāng)于PowerQuery(數(shù)據(jù)清洗)+PowerPivot(數(shù)據(jù)透視)+PowerView+PowerMap,他集成了這些功能組成一個(gè)新的軟件叫PowerBI,屬于微軟做的一個(gè)專門(mén)用來(lái)做數(shù)據(jù)分析的商業(yè)智能軟件。

          PowerBI界面:




          Python“寶藏級(jí)”公眾號(hào)【Python之王】專注于Python領(lǐng)域,會(huì)爬蟲(chóng),數(shù)分,C++,tensorflow和Pytorch等等

          近 2年共原創(chuàng) 100+ 篇技術(shù)文章。創(chuàng)作的精品文章系列有:

          日常收集整理了一批不錯(cuò)的?Python?學(xué)習(xí)資料,有需要的小伙可以自行免費(fèi)領(lǐng)取。


          獲取方式如下:公眾號(hào)回復(fù)資料領(lǐng)取Python等系列筆記,項(xiàng)目,書(shū)籍,直接套上模板就可以用了。資料包含算法、python、算法小抄、力扣刷題手冊(cè)和 C++ 等學(xué)習(xí)資料!

          瀏覽 238
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  腋毛美女浴室大胆自慰 | xxxx日本少妇 | 淫淫五月天 | 国产精品人妻无码久久久郑州天气网 | 日韩8x8x |