5點!分析師常被問到的
解密數(shù)據(jù)分析
|0x00 數(shù)據(jù)分析做什么
大家好,我是寶器!
數(shù)據(jù)分析的定義,在百度百科上是這樣介紹的:“用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。”這句話的理解比較費勁,那么簡單一點講,數(shù)據(jù)分析就是發(fā)現(xiàn)有用的信息,提供結論并支持決策。
有道是“數(shù)據(jù)在手,天下我有”,但如何尋找出數(shù)據(jù)中潛在的價值,就是分析師的重要工作了。
數(shù)據(jù)分析大概有兩種不同的發(fā)展方向,一種是偏向業(yè)務分析,需要對業(yè)務有比較深的理解,在此基礎上,通過數(shù)據(jù)來尋找業(yè)務增長的套路,例如用戶增長、網(wǎng)站分析、經(jīng)營分析等;另一種是偏向數(shù)據(jù)挖掘,更加注重技術、尤其是算法能力的應用,需要對常見算法的應用熟練掌握。實際工作中,由于數(shù)據(jù)挖掘需要非常好的技術功底,因此絕大多數(shù)人都是偏向業(yè)務進行分析。
|0x01 數(shù)據(jù)分析的工作內容
那么數(shù)據(jù)分析的童鞋,日常主要在做什么呢?簡而言之,在做三件事:業(yè)務的現(xiàn)狀是什么、為什么會發(fā)生、未來將要如何(或如何改進)。
現(xiàn)狀分析,就是告訴業(yè)務決策者,過去發(fā)生了什么事情,并且通常以報表的形式呈現(xiàn)出來。所以分析師不光要能夠做日報、周報,還需要自己來搭建報表平臺,通過分析關鍵的指標,來掌握業(yè)務的運營情況。
原因分析,是在業(yè)務現(xiàn)狀的基礎上,分析為什么會發(fā)生這些事情。比如指標上升或者下降了,是因為什么原因造成的;或者是分析不同渠道對于最終轉化的貢獻情況。分析的過程,通常會通過專題的形式展示出來。
預測分析,則是告訴業(yè)務,未來會發(fā)生什么。預測其實是一件很重要的工作,不論是企業(yè)經(jīng)營目標的制定,或者是相關策略的落實,都需要預測未來可能的情況,來保證業(yè)務的健康可持續(xù)發(fā)展。例如電商大促的到來,銷量會得到很大的提升,那么對應的預算、物流、商家要做怎樣的應對,都依賴于數(shù)據(jù)來提供預測。
|0x02 相關概念的解釋
還是有人會產(chǎn)生疑問:“數(shù)據(jù)分析”、“數(shù)據(jù)科學”、“數(shù)據(jù)驅動”、“商業(yè)智能”,這些概念都有怎樣的不同呢?
首先說一下“商業(yè)智能”,英文是Business intelligence,這是我們常說的BI,其主要價值,在于通過一系列的數(shù)據(jù)技術,從數(shù)據(jù)中挖掘隱藏的客觀規(guī)律,總結這些規(guī)律背后的原因,并用于指導公司業(yè)務的發(fā)展。大多數(shù)情況下,BI分析師的工作,就是通過SQL、Python等語言,將已經(jīng)統(tǒng)計好的數(shù)據(jù),結合數(shù)據(jù)模型或者是分析框架,來對業(yè)務進行各種分析,并做成有價值的報表或者報告的形式,供業(yè)務方進行分析。
再講講“數(shù)據(jù)科學”,這個概念就要寬泛的多,通常指在跨學科的領域中,通過數(shù)據(jù)來尋找到解決問題的方法。數(shù)據(jù)科學的概念其實比較模糊,屬于寬口徑的概念,在不同的行業(yè)里所做的事情,可能是截然不同的。在互聯(lián)網(wǎng)行業(yè)中,數(shù)據(jù)科學大約代表:先通過探索分析發(fā)現(xiàn)問題,然后再用數(shù)據(jù)建模去解決問題。
那么“數(shù)據(jù)驅動”又如何理解?數(shù)據(jù)驅動的字面意思是將數(shù)據(jù)來作為生產(chǎn)資料,通過科學的方法,來推動業(yè)務的優(yōu)化提高。在互聯(lián)網(wǎng)行業(yè)里,數(shù)據(jù)驅動又可以分為數(shù)據(jù)驅動產(chǎn)品、數(shù)據(jù)驅動業(yè)務兩個方向,比如通過A/B測試來尋找最優(yōu)的推薦算法,或者是設計實驗來指導產(chǎn)品迭代更新的方向,等等。
因此,在一家公司中,不同數(shù)據(jù)崗位的分工大體如下:數(shù)據(jù)工程師負責數(shù)據(jù)平臺的搭建、數(shù)據(jù)倉庫的建設,以確保數(shù)據(jù)被正確的計算和方便的獲取;數(shù)據(jù)分析師根據(jù)數(shù)據(jù)來描述或者是分析相應的問題,這其中包括了“商業(yè)智能”來做報表,或者是“數(shù)據(jù)科學”來尋找數(shù)據(jù)模型,最終都是“數(shù)據(jù)驅動”業(yè)務增長或產(chǎn)品迭代。
|0x03 如何來做數(shù)據(jù)分析
數(shù)據(jù)分析雖然需要的基礎知識非常多,屬于入門門檻比較高的那一種,但實際的工作卻大體遵循如下的步驟,細節(jié)可以有不同:
明確分析目的 - 確定思路框架 - 準備數(shù)據(jù) - 分析數(shù)據(jù) - 展示數(shù)據(jù) - 報告撰寫。
一,明確分析目的,非常重要,目的不明確會導致分析的過程十分盲目。這里會有一個假設,即分析師需要懂業(yè)務,并且有自己對于業(yè)務的理解,如果沒有相應的專業(yè)知識,通常分析的結果就沒有特別大的價值。那么什么是懂業(yè)務?大體上就是需要明白企業(yè)的商業(yè)模式是怎樣的,通過什么樣的關系能夠產(chǎn)生商業(yè)價值。如果是2B方向,還需要懂一些管理學的內容,了解數(shù)據(jù)如何輔助公司的經(jīng)營管理。
二,確定思路框架,是通過怎樣的指標、哪些角度來進行分析。其實業(yè)界有一些非常通過的方法,可以讓我們快速開展業(yè)務的同時,能夠保證“MECE原則”,即對于一個重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠借此有效把握問題的核心,并成為有效解決問題的方法。
常見的思路框架包括:決策樹管理分析法、PEST行業(yè)分析法、5W2H問題分析法、4P營銷理論、SWOT競爭力分析模型…… 這里的方法論非常多,一些細分方向也有自己的成套理論,比如“用戶增長”常用的AARRR漏斗模型、RFM理論等。這里就不一一展開了,網(wǎng)上能夠搜到大把的資源,但有一點需要注意,就是掌握模型切記只掌握個大概,因為每個模型是相應知識體系的總結,只能交給你思路,而無法交給你哪些坑應該避免、什么情況下不起作用,等等。
三,準備數(shù)據(jù),這個工作通常由數(shù)倉團隊完成,一些流量場景,需要采集數(shù)據(jù)的,也可以通過數(shù)據(jù)埋點平臺來自動完成。當然,成熟的團隊會通過建立自己的指標體系,來靈活的支持業(yè)務的發(fā)展。
四,分析數(shù)據(jù),以上文提到的現(xiàn)狀、原因與預測分析為例,可以衍生出很多相應的分析方法。我們日常聽到比較多的假設檢驗、回歸分析、聚類分析等,都是在分析數(shù)據(jù)階段需要用到的專業(yè)知識。
常見的分析方法有:A/B測試、描述分析、假設檢驗、信度分析、推斷分析、相關分析、回歸分析、聚類分析、時間序列分析…… 在使用分析方法時,需要注意的一點是口徑要一致,例如指標的口徑范圍、計算方法、計量單位等進行檢查。
五,展示數(shù)據(jù),一般情況下是通過圖表和表格來展示數(shù)據(jù),通常是能用圖說明的,就不要用表格,除非表格能夠提供更多的信息。
詳情見下圖。

所以有句話說道:數(shù)據(jù)分析無非四種方法:“比較”、“分布”、“構成”、“聯(lián)系”。
六,報告撰寫,根據(jù)分析框架,圖文并茂的寫一個好故事吧,記得要有清晰的結論。
|0x04 A/B測試
俗話說,“增長團隊有三寶:埋點、漏斗、AB測”,埋點是數(shù)據(jù)平臺的功能,漏斗是分析問題的思路,但為什么要單獨提一下A/B測試?是因為有了數(shù)據(jù)分析的方法之后,我們還需要數(shù)據(jù)分析的平臺,來對分析的成果快速的進行實驗。可以說,A/B測試是支持數(shù)據(jù)決策最有力的工具。
A/B測試針對2種以上的方案,不論是一整套產(chǎn)品方案,還是一個小元素的改動,只要變量是唯一的,那么我們就可以對同一組人群,進行隨機的分組,在同等的時間維度內,將實驗組和對照組的結果進行對比,來衡量那種方案更好。
其實很多開發(fā)與測試的同學不太理解A/B測試的重要性,因為從開發(fā)的視角出發(fā),這些內容確實會增加很多的動作量。但如果從業(yè)務的角度出發(fā),那作用可就大了,不論是爭議方案的對比、還是產(chǎn)品轉化率的提升、亦或是多個數(shù)據(jù)策略的貢獻分配、再或者是產(chǎn)品功能保持簡潔的方法,都需要大量的實驗來驗證我們的想法。在互聯(lián)網(wǎng)公司中,我們并不缺少想法,但我們需要驗證想法的工具,讓數(shù)據(jù)來消除我們的收益淹沒、認知偏差、僥幸心理和收益分配矛盾。
在實際的工作中,A/B測試并不簡單的代表分成兩個實驗組,就完事了,因為我們需要考慮“辛普森悖論”的存在。辛普森悖論是指在某個條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質,可是一旦合并考慮,卻可能導致相反的結論。如果不了解辛普森悖論,盲目的解讀試驗結論,很容易得出錯誤的結論。因此,我們通常會設計更多的參照,以驗證我們想法的正確性,比如AA測試,或者AAB測試,這都需要一些經(jīng)驗的累積。
36Kr曾在一篇報道中寫道,“頭條發(fā)布一個新APP,其名字都必須打N個包放到各大應用市場進行多次A/B測試而決定,張一鳴告訴同事:哪怕你有99.9%的把握那是最好的一個名字,測一下又有神馬關系呢?”
|0x05 數(shù)據(jù)化運營
數(shù)據(jù)分析如果持續(xù)的做下去,那么它的目標就不僅僅是運營看板或者是分析報告了,而是走向“數(shù)據(jù)化運營”的發(fā)展路線中。
“數(shù)據(jù)化運營”的概念很火,但其實很多人對它有誤解,認為這就是將“運營”的工作線上化了而已,但其實不然。在百度百科中,對“數(shù)據(jù)化運營”的定義是:“數(shù)據(jù)化運營是指通過數(shù)據(jù)化的工具、技術和方法,對運營過程中的各個環(huán)節(jié)進行科學的分析,為數(shù)據(jù)使用者提供專業(yè)、準確的行業(yè)數(shù)據(jù)解決方案,從而達到優(yōu)化運營效果和效率、降低運營成本、提高效益的目的。”
但在互聯(lián)網(wǎng)行業(yè)中,“數(shù)據(jù)化運營”的核心思路在于,基于“用戶”的行為和屬性,對“用戶”進行運營。因為互聯(lián)網(wǎng)產(chǎn)品的生命周期,就是一個閉環(huán)的模型:用戶獲取、用戶活躍、用戶留存、口碑傳播、付費轉化。這其中的每一個環(huán)節(jié),都是一個漏斗,通過對數(shù)據(jù)進行分析,來運營指標的增長,或者是指導產(chǎn)品成長。例如最經(jīng)典的啤酒與尿布的故事,就是一個典型的場景,通過發(fā)現(xiàn)用戶行為的關聯(lián),來設置合理的運營策略,提升最終的產(chǎn)品銷量。
就像精益創(chuàng)業(yè)中提到的“MVP”理論一樣,不論是數(shù)據(jù)分析制定的各種策略,或者是企業(yè)的不同戰(zhàn)術打法,其實都不一定是奏效的,而在執(zhí)行策略的同時,通過數(shù)據(jù)的沉淀,來不斷驗證策略打法的有效性,最終發(fā)現(xiàn)那個最合適的“MVP”功能,是數(shù)據(jù)化運營的核心導向。
現(xiàn)在的數(shù)據(jù)化運營體系已經(jīng)變得更加復雜,不僅是因為業(yè)務場景的設計越來越復雜,也因為機器學習、因果推斷等新技術的應用,使得一些感性的數(shù)據(jù)能夠被利用起來,讓我們的運營能夠更加清楚的看到業(yè)務與目標的差距在哪里、應該通過哪些手段來彌補GAP,調整方法會產(chǎn)生怎樣的影響,最終形成我們口中的“數(shù)據(jù)智能”。
|0xFF 尾記
KPMG(畢馬威)的Swami Chandrasekaran分享過一個數(shù)據(jù)科學家的學習路線圖,包括了數(shù)據(jù)的基本原理、統(tǒng)計學、機器學習、數(shù)據(jù)可視化、大數(shù)據(jù)處理等方面的推薦知識,感興趣的可以學習一下。原本是2013年寫的,部分內容可能需要更新,但個人覺得這種類似地鐵線路圖的方式,很適合作為自己學習的思維導圖。


推薦閱讀
歡迎長按掃碼關注「數(shù)據(jù)管道」
