一份給數(shù)據(jù)分析小白的指南
作者介紹
隨著大數(shù)據(jù)時(shí)到的到來(lái),把原始冰冷的數(shù)據(jù)轉(zhuǎn)化為有意義的見(jiàn)解成為了這個(gè)時(shí)代新的超能力。本文將帶你從最基礎(chǔ)的認(rèn)識(shí)數(shù)據(jù)、到了解數(shù)據(jù)分析師的工作內(nèi)容、需要的技術(shù)和軟技能、再到新手入職的tips、容易犯的錯(cuò)誤和最后數(shù)據(jù)分析師的好習(xí)慣來(lái)展開(kāi)。
引言
你有沒(méi)有每月記賬看自己各方面的花銷并對(duì)比計(jì)劃來(lái)調(diào)整花費(fèi)?你有沒(méi)有每周收到手機(jī)推送的app使用時(shí)間報(bào)告并以此跟自己說(shuō)要少花點(diǎn)時(shí)間在social media?你有沒(méi)有追蹤自己的體重或者BMI來(lái)判斷自己是不是又該運(yùn)動(dòng)了?如果你有,說(shuō)明你已經(jīng)在用數(shù)據(jù)幫你做決策,進(jìn)行數(shù)據(jù)分析了。
什么是數(shù)據(jù)?
數(shù)據(jù)的定義太廣泛了,但工作場(chǎng)景的含義通常是一個(gè)有行和列的表(table):每一行代表一條記錄(record/observation),每一列表示一個(gè)變量variable/指標(biāo)metrics。
變量可以分為:數(shù)值型變量(numerical能進(jìn)行加減乘除的計(jì)算的)和定性變量 (qualitative/categorical有有限的數(shù)量,比如性別,種族)。數(shù)值型變量又可以分為連續(xù)性變量和離散型變量(比如家里幾口人,幾輛車)。定性變量中有一類序數(shù)變量(ordinal variable)內(nèi)含了一定的程度和順序,比如你對(duì)客服滿意度的評(píng)級(jí)。

變量的分類
每個(gè)數(shù)據(jù)點(diǎn)有3個(gè)緯度值得關(guān)注:變量名,數(shù)據(jù)類型和數(shù)據(jù)值。數(shù)據(jù)類型在不同的數(shù)據(jù)庫(kù)軟件中有所不同,但大體上都可以分為:text/string,date and time, number, Boolean(0/1, True/False)。
什么是數(shù)據(jù)分析師?
同一title下的數(shù)據(jù)分析師可以做著截然不同的事,這與行業(yè)、數(shù)據(jù)量大小、公司/組織大小,服務(wù)于誰(shuí)都有關(guān)系。但總體來(lái)說(shuō),數(shù)據(jù)分析師需要通過(guò)對(duì)數(shù)據(jù)進(jìn)行一系列推理、實(shí)驗(yàn)、計(jì)算,來(lái)描述一個(gè)組織/過(guò)程的現(xiàn)狀、研究不同變量之間的關(guān)系、檢測(cè)異常指標(biāo)、分析事件/行為的原因,甚至預(yù)測(cè)未來(lái)事件發(fā)展的趨勢(shì)(最后這條一般由需要建模的數(shù)據(jù)科學(xué)家來(lái)完成)。
備注:數(shù)據(jù)架構(gòu)師(Data Architect)是那些處理數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)使用、數(shù)據(jù)管理和在不同系統(tǒng)間整合的人,他們定義了數(shù)據(jù)的標(biāo)準(zhǔn)和準(zhǔn)則。數(shù)據(jù)工程師(Data Engineer)是那些建數(shù)據(jù)庫(kù)或者和數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)打交道的人,他們負(fù)責(zé)各種各樣的數(shù)據(jù)清理和轉(zhuǎn)化,他們把處理好的數(shù)據(jù)給數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家使用,大公司或者職責(zé)劃分比較清晰的公司會(huì)有專門(mén)的數(shù)據(jù)工程師。而數(shù)據(jù)分析師就是拿著比較干凈的數(shù)據(jù)進(jìn)行進(jìn)一步的操作,直到最后進(jìn)行數(shù)據(jù)可視化,產(chǎn)出有效的見(jiàn)解,幫助企業(yè)決策。
數(shù)據(jù)分析師需要的技能

通常需要的基本技能有Excel+SQL+用BI tools (Tableau,PowerBI等)進(jìn)行數(shù)據(jù)可視化做dashboard。再進(jìn)階一步會(huì)需要統(tǒng)計(jì)學(xué)的知識(shí)會(huì)做假設(shè)檢驗(yàn)來(lái)判斷一個(gè)campaign/test(實(shí)驗(yàn))是否有效。再進(jìn)階會(huì)需要python/r的技能做一些數(shù)據(jù)檢驗(yàn)、清理和數(shù)據(jù)轉(zhuǎn)化。再進(jìn)階就需要行業(yè)知識(shí),數(shù)據(jù)敏感性,這要靠經(jīng)驗(yàn)和大量的對(duì)行業(yè)的學(xué)習(xí)來(lái)積累。
備注:數(shù)據(jù)轉(zhuǎn)化:例如選取有用的數(shù)據(jù)列、用已有的數(shù)據(jù)進(jìn)行計(jì)算并添加新的數(shù)據(jù)列等。
但成為一名數(shù)據(jù)分析師所需的技能絕不僅僅是會(huì)寫(xiě)一些代碼、用一些軟件那么簡(jiǎn)單,軟件/編程語(yǔ)言總在不斷更新?lián)Q代,他們也只是解決問(wèn)題的工具(比如計(jì)算一個(gè)商家的平均客單價(jià)可以用Excel,SQL,Python或者R任何一個(gè)工具來(lái)實(shí)現(xiàn)),但是以下軟技能是成為一名數(shù)據(jù)分析師一直需要而且不可或缺的能力:
明白你要解決的問(wèn)題,甚至能根據(jù)數(shù)據(jù)提出有價(jià)值的問(wèn)題。
找到并收集數(shù)據(jù)回答你的問(wèn)題。如果你想知道我們有沒(méi)有達(dá)到發(fā)貨目標(biāo),那你就需要知道從我們收到訂單到發(fā)貨要多久,我們的目標(biāo)是多久,然后從哪里找訂單數(shù)據(jù)、發(fā)貨數(shù)據(jù),我有沒(méi)有這些數(shù)據(jù)的權(quán)限,我有多少數(shù)據(jù),而又需要多少數(shù)據(jù)來(lái)回答這個(gè)問(wèn)題。
不是所有需要你解決問(wèn)題的數(shù)據(jù)都在一個(gè)地方,有的可能來(lái)于Excel spreadsheet,其他部分在snowflake,還有一部分在MySQL,你要能夠整合所有數(shù)據(jù)幫助你最后的dashboard或者解決某一問(wèn)題。
明白你數(shù)據(jù)的質(zhì)量,能檢查并發(fā)現(xiàn)數(shù)據(jù)的問(wèn)題(如果有)。
明白數(shù)據(jù)怎么來(lái)的,是直接來(lái)于客戶還是我們內(nèi)部進(jìn)行了數(shù)據(jù)的處理,如果有了問(wèn)題是客戶data source的問(wèn)題還是我們數(shù)據(jù)清理/轉(zhuǎn)化過(guò)程的失誤
備注:當(dāng)你做報(bào)告的時(shí)候也要標(biāo)注數(shù)據(jù)來(lái)源,因?yàn)檫@可以幫助你追溯出現(xiàn)問(wèn)題的路徑。有時(shí)候系統(tǒng)升級(jí)或者數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)處理中,你作為end-user不知道這些情況,當(dāng)你匯報(bào)時(shí),但你的老板(或者其他上級(jí)的人)更了解big picture,就可以很快的指出你的報(bào)告是否有問(wèn)題,并幫你debug。
明確哪些數(shù)據(jù)重要。你會(huì)被給到很多數(shù)據(jù),但你要能找出解決某個(gè)問(wèn)題特定的列/指標(biāo)。
能計(jì)算有效的指標(biāo)。不是所有需要你解決問(wèn)題的數(shù)據(jù)都已經(jīng)存在在數(shù)據(jù)庫(kù)里,你要學(xué)會(huì)用已有的信息,計(jì)算你需要的信息。
用簡(jiǎn)潔、容易理解的方式匯報(bào)你的結(jié)果。
很重要的是明確你匯報(bào)成果的對(duì)象,如果是business people/領(lǐng)導(dǎo)級(jí)別的人,他們不想知道你如何一步步實(shí)現(xiàn)的結(jié)果、進(jìn)行了哪些復(fù)雜的計(jì)算,他們就想你通過(guò)一些通俗易懂的可視化圖表,看你對(duì)某一問(wèn)題的結(jié)果/答案。
新手入職 Tips
先別急著上手做什么項(xiàng)目,花一些時(shí)間看公司現(xiàn)在用哪些report做決策,學(xué)習(xí)已有的report,你還能從中學(xué)到一些行業(yè)/公司的基本準(zhǔn)則/規(guī)則,比如某個(gè)指標(biāo)的benchmark,呈現(xiàn)過(guò)去30天還是一年的數(shù)據(jù),關(guān)注全國(guó)還是某個(gè)地區(qū)的數(shù)據(jù)等等。
在這個(gè)過(guò)程中,多問(wèn)問(wèn)自己做這樣一個(gè)report,我需要哪些數(shù)據(jù),從來(lái)收集這些數(shù)據(jù),你有沒(méi)有這些數(shù)據(jù)的權(quán)限,問(wèn)問(wèn)同事他們找誰(shuí)拿到的數(shù)據(jù)。
找一個(gè)容易上手的dashboard進(jìn)行練習(xí)。
讀工作流程圖、一些數(shù)據(jù)處理/數(shù)據(jù)分析的手冊(cè)等。如果沒(méi)有這些東西,通過(guò)和同事的交流、請(qǐng)教,自己寫(xiě)一份工作流程的documentation/workflow是一個(gè)很好的開(kāi)始,不僅讓你梳理了工作的框架、明白不同表之間怎么join,你也創(chuàng)造了超出分析數(shù)據(jù)本身的價(jià)值。

工作流程圖示例
新手常犯錯(cuò)誤
沒(méi)有花足夠的時(shí)間理解數(shù)據(jù)。
任何人都可以搞一個(gè)pivot table或者進(jìn)行一些計(jì)算,但你要有沒(méi)有注意數(shù)據(jù)間的關(guān)系,你做的事是不是解決了問(wèn)題/符合目標(biāo)?
沒(méi)有檢查重復(fù)值(duplicates)。
沒(méi)有做一些基本的求和,求平均值和計(jì)數(shù)的計(jì)算來(lái)看結(jié)果是不是符合邏輯,比如product table有產(chǎn)品單價(jià),order table有sales amount,那sales amount除以quantity sold 是否和unit price一致。
沒(méi)有記錄你要解決的問(wèn)題和答案。
這幫助你不問(wèn)重復(fù)的問(wèn)題,以后有問(wèn)題也有文檔可循。
沒(méi)有用其他的方法驗(yàn)證你的數(shù)據(jù)結(jié)果。
每個(gè)人都可以展示一個(gè)數(shù)并讓他看起來(lái)很正確,更要命的是邏輯上的錯(cuò)誤不會(huì)有報(bào)錯(cuò)提醒。
因?yàn)楹ε虏粏?wèn)問(wèn)題。
人們總是提供你他們覺(jué)得你需要的requirement,但這并不總是和你需要的一致。
問(wèn)有價(jià)值的問(wèn)題高效地完成你的工作也是一種能力,有價(jià)值的問(wèn)題包括業(yè)務(wù)方給你提供一個(gè)訴求,你發(fā)現(xiàn)一些東西需要更清楚的闡述,或者考慮到這個(gè)訴求的目標(biāo)提出的一些concern,去尋求confirmation。
不問(wèn)是否已有文檔記錄/解決了相關(guān)的問(wèn)題,如果有,你可以更高效更聰明的工作,而不是傻干傻琢磨。
數(shù)據(jù)分析師的好習(xí)慣
如果你不知道答案,不要猜或者編一個(gè)結(jié)果。
決策者是要拿你說(shuō)的話做決策的,不確定的時(shí)候明確告訴對(duì)方你需要再核實(shí)一下或者查到結(jié)果后再給ta update。
除了自己檢驗(yàn)自己的數(shù)據(jù)分析過(guò)程,peer review也是很好的方法,越是有經(jīng)驗(yàn)的數(shù)據(jù)分析師越會(huì)支持鼓勵(lì)你多花一點(diǎn)時(shí)間做peer review保證結(jié)果的正確性,他們這么做并不是擔(dān)心你能力不夠。
開(kāi)會(huì)要做好準(zhǔn)備,有效利用時(shí)間。
就我個(gè)人而言,不管是別人invite我的meeting還是我自己organize的meeting,我都會(huì)準(zhǔn)備一個(gè)list,前者我會(huì)準(zhǔn)備要問(wèn)的問(wèn)題,后者我會(huì)寫(xiě)會(huì)議的流程。
每個(gè)人都很忙,好不容易找人問(wèn)到了你的問(wèn)題,記得take notes。
presentation之前提供上下文/項(xiàng)目背景,幫助聽(tīng)眾更好的理解你的演講內(nèi)容。
具體包括標(biāo)注數(shù)據(jù)出處、定義名詞或術(shù)語(yǔ)、需要他們從數(shù)據(jù)中得到的信息。
給別人發(fā)數(shù)據(jù)的時(shí)候建一個(gè)readme文檔,標(biāo)注數(shù)據(jù)出處、你做了哪些數(shù)據(jù)清理和轉(zhuǎn)化,如果需要再加一個(gè)數(shù)據(jù)字典:解釋列名和一些針對(duì)數(shù)據(jù)的注意事項(xiàng)。
- END - 對(duì)比Excel系列圖書(shū)累積銷量達(dá)15w冊(cè),讓你輕松掌握數(shù)據(jù)分析技能,可以點(diǎn)擊下方鏈接進(jìn)行了解選購(gòu):
