數(shù)據(jù)分析師核心技術(shù)棧出爐!學(xué)數(shù)據(jù)分析常見三大誤區(qū)
數(shù)據(jù)領(lǐng)域的名詞特別多,經(jīng)常把同學(xué)們繞暈。數(shù)據(jù)分析、商業(yè)分析、運營分析、銷售分析、數(shù)據(jù)挖掘、算法模型、統(tǒng)計學(xué)、智能分析、BI分析……似乎每個都和數(shù)據(jù)有關(guān)系,似乎每個又各自有一個領(lǐng)域的知識。
如何區(qū)別這些讓人眼花繚亂的概念,今天系統(tǒng)講解一下。
學(xué)習(xí)數(shù)據(jù)分析三類常見錯誤
正是因為知識點太多,所以有同學(xué)很容陷入某個細(xì)節(jié),結(jié)果產(chǎn)生三大流派:
▌理論流:喜歡搬書,尤其喜歡搬統(tǒng)計學(xué),還有把高數(shù)搬出來的。似乎是理論越厚越好。實際上企業(yè)里相當(dāng)多的數(shù)據(jù)工作是全量統(tǒng)計,根本不需要用到統(tǒng)計學(xué)抽樣概念。
▌工具流:尤其以ESP(excel,sql,python)或者EST(excel,sql,tableau)流為典型,每天都在努力學(xué)習(xí)各種操作工具,可每一種操作工具,又止于最大值、最小值、平均值、百分比,最多再做個RFM聊以自慰。結(jié)果面試時候總糾結(jié):到底這個算不算熟練。
▌思維流:總是把“底層思維”“核心邏輯”“內(nèi)功心法”掛在嘴邊,“分析無非拆解、對比”,對數(shù)據(jù)怎么采集一無所知,對數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理一竅不通,結(jié)果就是真實工作中連個需求表都講不清……開發(fā)看了直撓頭。
當(dāng)然,更夸張的是以上三個都信了,桌面擺了20本書每天看一章,結(jié)果頭昏腦漲還是不懂,那畫面太美真不敢看……
之所以有這些問題,是因為數(shù)據(jù)分析工作本身是一個交叉領(lǐng)域的知識,并非像財務(wù)會計那樣從理論到實操能用一套體系講完。真實的數(shù)據(jù)分析工作上呈業(yè)務(wù),下接技術(shù),每個子模塊都有豐富的內(nèi)容。如果不梳理出一條主線,很容易扎進(jìn)細(xì)節(jié)無法自拔(如下圖,數(shù)據(jù)分析師的技能樹)

從數(shù)據(jù)分析到數(shù)據(jù)驅(qū)動
以一張指標(biāo)含義清晰,分類維度含義明確的excel表為分水嶺,數(shù)據(jù)分析可以分成技術(shù)和業(yè)務(wù)兩部分。
從各個數(shù)據(jù)來源采集數(shù)據(jù),ETL過程,數(shù)據(jù)倉儲建設(shè),數(shù)據(jù)庫中跑數(shù)提取出這張excel表的過程,是技術(shù)工作,涉及埋點、數(shù)據(jù)清洗、大數(shù)據(jù)開發(fā)等眾多技術(shù)領(lǐng)域。為了方便提取數(shù)據(jù)。

如何解讀excel,把數(shù)據(jù)變成可以指導(dǎo)業(yè)務(wù)的行動策略,是業(yè)務(wù)部分。
注意,業(yè)務(wù)只是一個統(tǒng)稱,分成戰(zhàn)略、戰(zhàn)術(shù)、戰(zhàn)斗三層。戰(zhàn)略層是最宏觀的經(jīng)營分析與企業(yè)發(fā)展方向分析;戰(zhàn)術(shù)層是具體的線下銷售、線上銷售、推廣渠道、用戶增長、品牌營銷、產(chǎn)品供應(yīng)等業(yè)務(wù)線的分析;戰(zhàn)斗層則是具體的運營活動、媒體發(fā)布、獲取渠道、產(chǎn)品功能點等分析。
這些分析都是基于可獲取的數(shù)據(jù)進(jìn)行的,需要業(yè)務(wù)基礎(chǔ)知識和分析技巧的雙料加持才能產(chǎn)生效果。所謂業(yè)務(wù)基礎(chǔ)知識,是對戰(zhàn)略、戰(zhàn)術(shù)、戰(zhàn)斗三層基本做法的了解。一個人不可能在連汽車都沒見過的情況下開好車,同樣,也不可能在對一個行業(yè)基本規(guī)則、操作流程、流行玩法不了解的情況下做好分析。
而分析技巧,則直接和數(shù)據(jù)質(zhì)量有關(guān)。數(shù)據(jù)來源豐富、數(shù)據(jù)質(zhì)量好的情況下,可以做復(fù)雜的分析模型,數(shù)據(jù)質(zhì)量不行,只能做基礎(chǔ)分析,長袖善舞,多錢善賈就是這個道理。
分析技巧也和業(yè)務(wù)模式有關(guān),越是能和用戶點對點溝通,即時交互的業(yè)務(wù),就越有能力做個性化推薦與數(shù)據(jù)測試。只能在公開場景溝通的,就很難做復(fù)雜的數(shù)據(jù)測試。
有沒有可能把這些繁瑣的過程,打包成一整個產(chǎn)品來實現(xiàn)?有,BI產(chǎn)品(Business Intelligence)就是這樣成體系的數(shù)據(jù)產(chǎn)品。
有趣的是,在BI產(chǎn)品推出早期(1996年),人們并不懂得數(shù)據(jù)的價值,因此才發(fā)明了一個“商業(yè)智能”的高大上稱呼,引起人們對數(shù)據(jù)產(chǎn)品的重視,而在2021年,人們已經(jīng)普遍認(rèn)識了數(shù)據(jù)價值,數(shù)據(jù)產(chǎn)品一詞才更容易被大家接受。
通過BI工具,業(yè)務(wù)部門可以輕松快捷地使用數(shù)據(jù),極大提升效率。(如下圖,基于PowerBI的銷售數(shù)據(jù)儀表盤)

可見,從數(shù)據(jù)分析到數(shù)據(jù)驅(qū)動,需要經(jīng)歷漫長的過程,且能力上有明顯差異。剛?cè)腴T的同學(xué),可以先對全流程有一個簡單了解,之后根據(jù)個人工作職責(zé)與能力特長,選擇更適合自己的方向。
數(shù)據(jù)分析與算法模型
從本質(zhì)上看,數(shù)據(jù)分析與算法是兩個應(yīng)用方向:
▌數(shù)據(jù)分析:數(shù)據(jù)分析對抗的是不確定性,核心任務(wù)是把可量化的流程、操作、行為量化,用數(shù)據(jù)化、科學(xué)化的管理,代替:“決策拍腦袋、承諾拍胸口、出事拍大腿”的隨意的管理。
▌算法:算法對抗的是低效率,核心任務(wù)是通過訓(xùn)練模型,把低級、重復(fù)、可標(biāo)準(zhǔn)化的操作轉(zhuǎn)移到機(jī)器完成,釋放人力資源,解決人力計算困難的問題。
所以我們能看到,算法的成功案例,在工業(yè)界比管理界多,在業(yè)務(wù)流程比決策流程多。比如人臉識別,在身份驗證、安防監(jiān)控、違章取證方面有大量應(yīng)用。
比如基于機(jī)器學(xué)習(xí)預(yù)測和線性規(guī)劃分配的調(diào)度算法,在人流控制、物流管理、派送分配方面有大量應(yīng)用。這些都是生產(chǎn)系統(tǒng),和數(shù)據(jù)分析、商業(yè)決策沒啥關(guān)系。
和商業(yè)決策相對距離較近的是推薦類算法。但注意:有推薦算法的推薦系統(tǒng),都是平臺方用于應(yīng)對大量商品(數(shù)以億計的SKU)的情況,品牌方自己才幾百個SKU的商品,做商品管理的時候還是要根據(jù)產(chǎn)品調(diào)性、賣點、用戶需求,設(shè)計宣傳思路,主打文案、賣點、價格策略、售后服務(wù)、禮品回饋。這些復(fù)雜的商業(yè)決策還是需要人來做,靠的是數(shù)據(jù)分析的支持。
本質(zhì)上,算法崗位和數(shù)據(jù)分析崗位是兩個工作,但這并不妨礙做數(shù)據(jù)分析的人向算法崗位靠攏。如果一個做分析的同學(xué),真的對業(yè)務(wù)不感興趣,更希望深鉆技術(shù)的話,完全可以向算法方向發(fā)展。做分析的同學(xué),對于數(shù)據(jù)開發(fā)有一定的能力積累,可以進(jìn)一步強(qiáng)化開發(fā)能力。
強(qiáng)化的方向,當(dāng)然不是打開SKlearn對著一個已經(jīng)處理好的數(shù)據(jù)集調(diào)參??深A(yù)見的未來是:AutoML興起以后,調(diào)參俠第一個失業(yè)。強(qiáng)化的第一步,強(qiáng)烈建議從特征工程做起。
俗話說:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。特征工程是最基礎(chǔ)也是最重要的工作(如下圖,利用特征工程提升預(yù)測效能)
縱觀Kaggle, KDD等國內(nèi)外大大小小的比賽,每個競賽的冠軍其實并沒有用到很高深的算法,大多數(shù)都是在特征工程這個環(huán)節(jié)做出了出色的工作,然后使用一些常見的算法就能得到出色的性能。
因此,特征工程可以說是機(jī)器學(xué)習(xí)成功的關(guān)鍵因素。并且這些基礎(chǔ)的工作,可以在比賽數(shù)據(jù)集上反復(fù)訓(xùn)練,通過大量實踐加深認(rèn)識,比起蜻蜓點水的敲一遍案例代碼連打字技巧,是一個更好的上手路徑。
快速建立分析的認(rèn)知
光看文字還不過癮?這里為大家準(zhǔn)備了一個連續(xù)3天的免費直播,通過三位重量級數(shù)據(jù)大咖,站在商業(yè)數(shù)據(jù)分析角度,帶大家領(lǐng)略從數(shù)據(jù)采集到商業(yè)應(yīng)用的全過程,以及如何從數(shù)據(jù)分析,上手算法建模。整個系列直播分為三部分,詳情如下,歡迎大家掃碼報名參加。
