讓你能進(jìn)“大廠”的數(shù)據(jù)分析項(xiàng)目是長(zhǎng)怎樣的?
微信搜索「Dathon數(shù)據(jù)分析」關(guān)注后,在后臺(tái)回復(fù)「亮眼項(xiàng)目」即可免費(fèi)獲取本文提到的項(xiàng)目技能棧與學(xué)習(xí)路徑。
也可以截圖后,微信掃碼關(guān)注后回復(fù)「亮眼項(xiàng)目」
文字版
暫時(shí)看不到視頻的同學(xué)看這里:
一、自我介紹
大家好,我是小匿。
今天我們來(lái)聊聊“能讓你脫穎而出的數(shù)據(jù)分析項(xiàng)目是怎么樣的”
在分享之前,我先做個(gè)簡(jiǎn)短的自我介紹。我是16年畢業(yè)于某廣東獨(dú)立院校財(cái)務(wù)管理專業(yè),畢業(yè)后從事了1年的會(huì)計(jì)工作,期間逐漸對(duì)此行業(yè)感到失望。于17年2月裸辭學(xué)習(xí)數(shù)據(jù)分析相關(guān)的知識(shí),在17年8月轉(zhuǎn)行至數(shù)據(jù)分析師,在這小公司里繼續(xù)打磨基礎(chǔ),并將數(shù)據(jù)分析及算法的知識(shí)運(yùn)用到真實(shí)的工作項(xiàng)目中。以及期間參與了接近10個(gè)算法比賽,并取得了一定名次。在18年12月,加入廣州某知名互聯(lián)網(wǎng)企業(yè),從事數(shù)據(jù)分析師職。2020年4月,在某機(jī)遇下,成功轉(zhuǎn)崗至數(shù)據(jù)挖掘工程師。
在數(shù)據(jù)道路上不斷前進(jìn)的這4年,讓我確立了自身的數(shù)據(jù)目標(biāo):”專注數(shù)據(jù)為業(yè)務(wù)賦能,不局限于方式“。未來(lái),我會(huì)在數(shù)據(jù)道路上繼續(xù)奔跑,我相信技術(shù)和業(yè)務(wù)的結(jié)合,為日漸復(fù)雜的需求場(chǎng)景提供自動(dòng)化&智能化的解決方案才是數(shù)據(jù)分析師該有的樣子。

二、背景
我們應(yīng)該都了解,數(shù)據(jù)分析項(xiàng)目是我們向面試官展示我們數(shù)據(jù)分析技能的最好載體,一個(gè)好的項(xiàng)目絕對(duì)能夠增大我們拿到offer的可能性。最脫穎而出的項(xiàng)目,當(dāng)然是在大廠的高業(yè)務(wù)價(jià)值的項(xiàng)目,這點(diǎn)毋庸置疑,但在這類項(xiàng)目一般可遇不可求。今天我想講解的是在脫離這個(gè)背景下,我們的個(gè)人項(xiàng)目應(yīng)該怎么做呢?
我有時(shí)也會(huì)作為面試官,或者幫一些微信好友看簡(jiǎn)歷,我真得很難很難能在簡(jiǎn)歷里看到一個(gè)讓我“眼睛一亮”的數(shù)據(jù)分析項(xiàng)目,大多項(xiàng)目真得十分大眾,基本是同一個(gè)模式,我舉幾個(gè)網(wǎng)紅項(xiàng)目。
淘寶用戶行為分析
母嬰商品銷售數(shù)據(jù)分析
共享單車數(shù)據(jù)分析
NBA球員數(shù)據(jù)分析
這些項(xiàng)目的形式全部都是:jupyter notebook + python數(shù)據(jù)處理代碼 + 數(shù)據(jù)可視化 + 分析結(jié)論 = 數(shù)據(jù)分析報(bào)告

這種形式的項(xiàng)目也不能差,我剛轉(zhuǎn)行的時(shí)候也是類似這樣的項(xiàng)目。
但實(shí)在是太大眾了,可以說(shuō)人手幾份,我作為面試官,10個(gè)有9個(gè)面試者都是這種模式,是挺膩的。我很想告訴大家,我們數(shù)據(jù)分析師能輸出的數(shù)據(jù)產(chǎn)品真得不是只有“數(shù)據(jù)分析報(bào)告”,我們能做的還有不少。那擁有怎樣特性的項(xiàng)目才能稱之為“”脫穎而出“呢?
我認(rèn)為有以下幾點(diǎn):
1、非單一的數(shù)據(jù)分析報(bào)告
2、不僅有能體現(xiàn)業(yè)務(wù)價(jià)值也有技術(shù)價(jià)值
3、整個(gè)項(xiàng)目能實(shí)現(xiàn)自動(dòng)化甚至是智能化
這里我將介紹兩個(gè)我做的我認(rèn)為能夠”脫穎而出“的數(shù)據(jù)分析項(xiàng)目。
三、項(xiàng)目1:結(jié)合用戶畫像從0到1大家一個(gè)公司級(jí)別的BI系統(tǒng)
任何項(xiàng)目我們都先得明確背景和目的(價(jià)值)
項(xiàng)目背景:運(yùn)營(yíng)商旗下某業(yè)務(wù)發(fā)展已經(jīng)進(jìn)入成熟期,某省份市場(chǎng)趨于飽和,新增用戶有限,因此存量用戶的保有尤為重要,目前業(yè)務(wù)月均退訂用戶數(shù)達(dá)30000+個(gè),流失情況嚴(yán)重,已較大程度影響業(yè)務(wù)發(fā)展與收入。
項(xiàng)目目的:1、弄清楚流失用戶在各時(shí)間段長(zhǎng)什么樣(用戶畫像)。2、通過(guò)構(gòu)建流失用戶畫像,找出可識(shí)別流失用戶的重要特征,為減少運(yùn)營(yíng)商旗下某業(yè)務(wù)的用戶保有工作成本提供依據(jù)。
針對(duì)此背景與價(jià)值,以及鑒于一些中小廠看數(shù)據(jù)仍在互傳PPT或圖片的情況下,我覺(jué)得搭建一個(gè)公司級(jí)別的BI系統(tǒng)是明智之選!
現(xiàn)在我們就構(gòu)思一下我們需要實(shí)現(xiàn)哪些功能點(diǎn):
BI工具的功能點(diǎn):
1、這個(gè)BI工具是網(wǎng)頁(yè)形式的,并且能適配PC端+移動(dòng)端(手機(jī)與平板),也能用電視大屏做一屏展示。只要有權(quán)限的人都能很方便的登錄查看。
2、這個(gè)BI工具是有強(qiáng)大的數(shù)據(jù)可視化能力的,有權(quán)限的人都能夠去配圖。
3、要有用戶權(quán)限系統(tǒng),有些數(shù)據(jù)只能Boss看,有些數(shù)據(jù)只能給某團(tuán)隊(duì)編輯,這些都需要適配。
4、要有Dashboard管理系統(tǒng),以免建立太多而混亂。
5、要能接入各種數(shù)據(jù)源,常規(guī)的mysql,及目前比較火的clickhouse最好都要能接入。
6、要有告警功能,當(dāng)核心指標(biāo)異常時(shí),它能自動(dòng)的用釘釘或企業(yè)微信或郵件進(jìn)行指標(biāo)告警。
7、要有版本控制功能,當(dāng)有同學(xué)不小心錯(cuò)誤保存了,能夠回滾版本。
流失用戶畫像儀表盤功能:
1、搭建流失用戶畫像儀表盤總覽,我需要一目了然的看到某段時(shí)間的流失用戶”長(zhǎng)怎樣!“
2、除了總覽,我想根據(jù)各屬性特征各自建立儀表盤,進(jìn)行多維度下鉆分析與配圖,更細(xì)致的了解數(shù)據(jù)全貌。
3、所有的時(shí)間趨勢(shì)圖我需要配上“環(huán)比”功能,清晰目前變化情況。
4、各下鉆分析儀表盤都需要有分析結(jié)論。
5、要有明細(xì)數(shù)據(jù)下載功能。
其他周邊功能:
主要是ETL
可能有些同學(xué),尤其是數(shù)據(jù)分析師看到這些功能點(diǎn)就慌了,我完全不會(huì)前后端啊,怎么可能搭建一個(gè)如此完整的BI系統(tǒng)呢?別慌!我介紹一個(gè)開(kāi)源免費(fèi)極易安裝的BI工具給你!- Grafana。
以上所說(shuō)的功能點(diǎn)它通通都有!完全不需要你在自行開(kāi)發(fā)!它甚至還有N多插件支持,舉個(gè)例子,echarts也是它們插件之一,這意味著你能配出99%的圖表!最后我要再次強(qiáng)調(diào)一下,它是開(kāi)源免費(fèi)的!現(xiàn)在外面完整的BI系統(tǒng)一般每年需要幾萬(wàn)/幾十萬(wàn)甚至上百萬(wàn),如果你能用這個(gè)工具為公司搭建,你每年能為公司省下這批成本,你還怕不升職加薪?

OK,我們功能點(diǎn)基本列好了,那我建議大家每個(gè)求職項(xiàng)目都應(yīng)該畫一個(gè)架構(gòu)圖或流程圖(兩者都畫也行)。那我們本項(xiàng)目架構(gòu)圖如下:
數(shù)據(jù)層:我們本次核心用mysql存儲(chǔ),但有一些是別的系統(tǒng)下載的csv,所以這層我們都做轉(zhuǎn)換。
數(shù)據(jù)預(yù)處理層:我們需要對(duì)數(shù)據(jù)缺失值、異常值、無(wú)效值進(jìn)行數(shù)據(jù)清洗;來(lái)自數(shù)據(jù)庫(kù)里的多個(gè)數(shù)據(jù)表進(jìn)行合并;基于業(yè)務(wù)理解構(gòu)建用戶畫像新特征;對(duì)時(shí)間戳及地理位置數(shù)據(jù)進(jìn)行轉(zhuǎn)換;最終我們將以上操作基于python做成自動(dòng)化的腳本,利用計(jì)劃任務(wù)管理器(或linux crontab)每天定時(shí)進(jìn)行數(shù)據(jù)調(diào)度。
數(shù)據(jù)分析與展示層:采用“總分”儀表盤設(shè)計(jì)形式,并依據(jù)業(yè)務(wù)形態(tài)細(xì)分為教育、身份、通信、消費(fèi)等四大特征。稍后會(huì)直接展示。
應(yīng)用層:客戶可以用各終端觀看Grafana BI系統(tǒng),而異常指標(biāo)告警我們可以通過(guò)企業(yè)微信/釘釘/郵件進(jìn)行接收。

來(lái)看看項(xiàng)目實(shí)際部分截圖:




四、項(xiàng)目2:核心指標(biāo)智能數(shù)據(jù)監(jiān)控日?qǐng)?bào)
項(xiàng)目背景:我們數(shù)據(jù)分析師都會(huì)遇到這個(gè)問(wèn)題,核心Kpi指標(biāo)異常了我們?cè)趺捶治觯總鹘y(tǒng)的分析手段是人工不斷的下鉆分析,如下圖所示。
當(dāng)某時(shí)間段流失率出現(xiàn)異常時(shí),我們基于業(yè)務(wù)理解篩選出最可能的維度省份、運(yùn)營(yíng)商、平臺(tái),基于這三個(gè)維度繼續(xù)進(jìn)行下鉆分析。從省份看各省份流失率均上升,所以該維度不會(huì)是異常根因。從運(yùn)營(yíng)商角度能明顯發(fā)現(xiàn)“電信"的突增,平臺(tái)能明顯的發(fā)現(xiàn)ios的突增。我們進(jìn)一步分析這兩個(gè)維度的組合,最終能確定為”運(yùn)營(yíng)商=電信&平臺(tái)=ios“為根因。
這是傳統(tǒng)的下鉆分析方式,你有沒(méi)有想過(guò)這整個(gè)過(guò)程是能夠自動(dòng)&智能化的?以下這個(gè)項(xiàng)目就告訴你!
項(xiàng)目?jī)r(jià)值:本項(xiàng)目對(duì)數(shù)據(jù)分析思維、智能算法、Python工程能力三者進(jìn)行科學(xué)結(jié)合。構(gòu)建智能數(shù)據(jù)監(jiān)控日?qǐng)?bào)系統(tǒng),及時(shí)掌握核心指標(biāo)最新情況,并當(dāng)核心指標(biāo)出現(xiàn)異常時(shí),算法智能分析出其原因。與傳統(tǒng)手工日?qǐng)?bào)、人工下鉆分析相比,大大提高了工作效率。并為業(yè)務(wù)不斷迭代優(yōu)化提供智能化的支撐。

構(gòu)建項(xiàng)目流程圖:
1、利用任務(wù)計(jì)劃調(diào)度器每日定時(shí)調(diào)度python腳本
2、利用pymysql庫(kù)與mysql交互,并做常規(guī)數(shù)據(jù)清洗
3、利用時(shí)間序列異常檢測(cè)算法判斷核當(dāng)天核心指標(biāo)是否異常
4、若沒(méi)有存在異常,我們對(duì)核心維度進(jìn)行下鉆分析,并用pyecharts庫(kù)進(jìn)行數(shù)據(jù)可視化
5、利用html+css制作郵件主要內(nèi)容,并用stmp&email庫(kù)進(jìn)行封裝,最終輸出核心KPI監(jiān)控日?qǐng)?bào)
6、但若存在異常,則我們接入根因定位算法,自動(dòng)&智能的分析異常根因
7、在輸出核心KPI監(jiān)控日?qǐng)?bào)同時(shí),也輸出智能根因定位日?qǐng)?bào)

本項(xiàng)目的最大亮點(diǎn)是時(shí)序異常檢測(cè)與根因定位算法。
時(shí)序異常檢測(cè)算法方面,和時(shí)序預(yù)測(cè)其實(shí)有一定相似,比如arima、prophet、lstm都是可選擇的算法。
根因定位算法方面,目前比較知名的hotspot、squeeeze、adtributor、idice等都可選擇。
來(lái)看看項(xiàng)目實(shí)際部分截圖:


五、小總結(jié)
本視頻的初衷就是前面所說(shuō)的,真得很難看到亮眼的數(shù)據(jù)分析項(xiàng)目,網(wǎng)上的數(shù)據(jù)分析項(xiàng)目基本是單一數(shù)據(jù)分析報(bào)告,我覺(jué)得數(shù)據(jù)分析師能做的遠(yuǎn)不止這些,技術(shù)與業(yè)務(wù)的結(jié)合,開(kāi)發(fā)出有價(jià)值的數(shù)據(jù)產(chǎn)品!
不覺(jué)得這樣的數(shù)據(jù)分析師比起單純的取數(shù)做報(bào)告有趣多了么!不知道是否有數(shù)分的同學(xué)覺(jué)得你這兩個(gè)項(xiàng)目不是應(yīng)該算法工程師或數(shù)據(jù)開(kāi)發(fā)來(lái)做嗎?為啥我們數(shù)據(jù)分析師要做這些。對(duì)于這個(gè)問(wèn)題我只想答,不要讓title給你自己貼了標(biāo)簽,算法和工程都可以成為我們的工具,我的座右銘“專注數(shù)據(jù)為業(yè)務(wù)賦能,不局限于方式”與大家共勉。
以上這些也僅僅個(gè)人觀點(diǎn),可能會(huì)有些片面,也算是一次拋磚引玉,期待有更多同學(xué)分享交流。
微信搜索「Dathon數(shù)據(jù)分析」關(guān)注后,在后臺(tái)回復(fù)「亮眼項(xiàng)目」即可免費(fèi)獲取本文提到的項(xiàng)目技能棧與學(xué)習(xí)路徑。
也可以截圖后,微信掃碼關(guān)注后回復(fù)「亮眼項(xiàng)目」
創(chuàng)作不易,求個(gè)在看,感謝!
