從 0 到 1 搭建企業(yè)數(shù)據(jù)平臺
最近在公司內(nèi)給同事們講了企業(yè)數(shù)據(jù)平臺建設(shè)歷程,在這里和大家分享下。
0. 文章大綱

1. 什么是企業(yè)數(shù)據(jù)平臺產(chǎn)品

個人定義「數(shù)據(jù)產(chǎn)品」為:數(shù)據(jù)產(chǎn)品是指利用數(shù)據(jù)輔助用戶了解客觀世界,做出決策甚至行動的一種產(chǎn)品形式。
首先從整體數(shù)據(jù)產(chǎn)品的分類講起,劃分的依據(jù)是使用者所屬群體,分為 ToC,ToB 和企業(yè)內(nèi)部三種,劃分過程具體可見在數(shù)據(jù)產(chǎn)品這個行業(yè)里,你需要知道這些內(nèi)幕。而在企業(yè)內(nèi)部,又可細分為「業(yè)務(wù)型」和「平臺型」。業(yè)務(wù)型的企業(yè)數(shù)據(jù)產(chǎn)品,更加專注于解決某個具體的業(yè)務(wù)問題或者部門問題,如客服數(shù)據(jù)監(jiān)控系統(tǒng)和建立在集團平臺的事業(yè)部決策分析系統(tǒng)。而平臺型的目的,就是為前者提供更好的支撐。
在明確了宏觀的定義后,我們再細拆下「企業(yè)數(shù)據(jù)平臺」六個字。竊以為,重要性應(yīng)按「數(shù)據(jù)」,「平臺」和「企業(yè)」三個排列。
數(shù)據(jù),界定了產(chǎn)品的邊界。我們思考的是怎么利用數(shù)據(jù)去優(yōu)化業(yè)務(wù),去推動業(yè)務(wù),數(shù)據(jù)組不產(chǎn)生數(shù)據(jù),只是數(shù)據(jù)的搬運工,要和非常底層的業(yè)務(wù)邏輯保持適當距離。對于日志的打印,業(yè)務(wù)庫的設(shè)計等這些數(shù)據(jù)原料,我們可以根據(jù)經(jīng)驗提出更優(yōu)的方案,但不適合去做具體的落地和執(zhí)行。很多數(shù)據(jù) PM 在一些業(yè)務(wù)需求的實現(xiàn)過程中會覺得非常低效和別扭,部分原因就是參與業(yè)務(wù)需求太深,導(dǎo)致在數(shù)據(jù)聚合層次摻雜了太多業(yè)務(wù)邏輯,業(yè)務(wù)方稍微更改下 PM 就會非常痛苦。 平臺,強調(diào)的是面向各個業(yè)務(wù)提供服務(wù),這要求產(chǎn)品具備較高的標準化和抽象化。?標準化指的是主動出擊,定下一些關(guān)鍵的數(shù)據(jù)資產(chǎn)規(guī)范,方便在企業(yè)中流通使用,如埋點管理,指標管理和數(shù)據(jù)庫表管理等等。抽象化則指的是不能只關(guān)注于解決一兩個具體的需求點,而是關(guān)注整個面的抽象和滿足,是一個由點及面的過程。 企業(yè),在企業(yè)內(nèi)部,會決定了反饋回路短,種類繁多,相對瑣碎的需求特征。很多需求可能就是業(yè)務(wù)方走到你工位旁說一句話的事情。另外一方面,企業(yè)內(nèi)用戶層級價值明顯,越到高層越能體現(xiàn)數(shù)據(jù)的價值,即以前我介紹過數(shù)據(jù)產(chǎn)品兩大原則之一:「數(shù)據(jù)價值體現(xiàn)在數(shù)據(jù)使用者手中」。最后,市場競爭激烈,數(shù)據(jù)安全及權(quán)限也是頭等大事。常見的權(quán)限模型為 RBAC(Role-Based Access Control,基于角色的訪問控制)。它抽象出「用戶-角色-權(quán)限」三個概念,通過角色控制菜單權(quán)限,再為用戶賦予相應(yīng)角色。角色一般根據(jù)業(yè)務(wù)部門和領(lǐng)導(dǎo)層級綜合劃定。
2. 企業(yè)數(shù)據(jù)平臺的目標

借用 GrowingIO CEO Simon 的理念,企業(yè)如同人類建立的水資源使用系統(tǒng),而數(shù)據(jù)如水。企業(yè)數(shù)據(jù)平臺的建設(shè)目標,應(yīng)當是讓數(shù)據(jù)像水資源一樣在企業(yè)中流動。這意味著數(shù)據(jù)要像水一樣做到:
干凈無毒 隨用隨取 場景豐富
這恰好對應(yīng)數(shù)據(jù)?準確,全面,及時,易用四個衡量維度。
進入人類資源使用系統(tǒng)的水資源需要經(jīng)過一定的清洗和沉淀,確保「干凈無毒」,然后根據(jù)不同的水用途存儲,進入不同的管道,這對應(yīng)于數(shù)據(jù)的「準確」。而「隨用隨取」對應(yīng)著在人類社會中,擰開水龍頭就能來水,及時,易用。「場景豐富」則意味著在不同場景里,水會有不同用途,飲用水,清潔用水,灌溉用水各取所需。即使飲用水,也分城市用水,礦泉水,純凈水等不同使用方式,通過挖掘和豐富數(shù)據(jù)的使用場景,深化數(shù)據(jù)本身的「全面」涵義。
達成這個目標的企業(yè)數(shù)據(jù)平臺,便能通過豐富場景,賦能業(yè)務(wù),提升整個企業(yè)使用數(shù)據(jù)的意愿和效率,賦予業(yè)務(wù)方高效使用和挖掘數(shù)據(jù)的能力。在使用場景上,個人歸結(jié)為以下主要場景,其他還待繼續(xù)補充:

建立數(shù)據(jù)流程,從產(chǎn)品上,是幫助業(yè)務(wù)方更好地完成使用數(shù)據(jù)的流程,包括采集存儲,展示分析到最后的挖掘落地三個層次。從需求上,即建立一個比較完善的需求分流解決機制,將零散需求,常規(guī)需求,業(yè)務(wù)需求等等分類處理完畢,并能將進展和結(jié)果及時反饋給需求方。優(yōu)化用戶體驗,是通過掌握用戶數(shù)據(jù),為用戶提供更加順暢的使用體驗,更加精準的營銷等等。挖掘數(shù)據(jù)資產(chǎn),包括標準化數(shù)據(jù)資產(chǎn),以及不斷挖掘回饋原有數(shù)據(jù),豐富數(shù)據(jù)維度,即車老師在《決戰(zhàn)大數(shù)據(jù)》中提到的「養(yǎng)數(shù)據(jù)」概念。
在轉(zhuǎn)轉(zhuǎn)的發(fā)展過程中,我們曾經(jīng)利用各種數(shù)據(jù)猜測出用戶的身份后進行定向業(yè)務(wù)推廣,通過推廣活動的反饋再回過頭來修正用戶身份,也是「挖掘數(shù)據(jù)資產(chǎn)」的一個例子。
3. 如何搭建企業(yè)數(shù)據(jù)平臺

一個完善的平臺應(yīng)該由以上三個框架組成。其中技術(shù)框架非我所長,暫且略過。數(shù)據(jù)框架主要是在數(shù)據(jù)模型,安全及質(zhì)量模塊。其中,數(shù)據(jù)模型主要是先對所屬業(yè)務(wù)出現(xiàn)出對應(yīng)的領(lǐng)域模型,然后定下來對應(yīng)的主題域劃分和維度模型。產(chǎn)品框架上,依然遵循 What-Why-How 的劃分方式,最先解決的是采集存儲,「是什么」的問題,先把數(shù)據(jù)采集后清洗存儲下來。其次解決「為什么」的問題,利用分析架構(gòu)和數(shù)據(jù)可視化展示,幫助用戶尋找原因。最后解決「怎么做」,通過價值的深入挖掘,和業(yè)務(wù)緊密結(jié)合等方式,來確定具體的內(nèi)容和方向。

接下來簡單介紹下產(chǎn)品框架中的每個步驟要解決的問題和對應(yīng)的方案。
3.1 采集存儲

相應(yīng)以上問題很多做數(shù)據(jù)的同學(xué)都遇到過,在此不一一贅述。元數(shù)據(jù)即數(shù)據(jù)的數(shù)據(jù),意在管理企業(yè)的數(shù)據(jù)資產(chǎn)。實踐的過程比較復(fù)雜,足以單獨寫一本書,這里挑一兩個轉(zhuǎn)轉(zhuǎn)用得較多的功能給大家介紹下。數(shù)據(jù)字典,即存儲和顯示每個指標的定義,算法及對應(yīng)的創(chuàng)建人及更新人,解決企業(yè)內(nèi)指標定義不一致的問題。每次上線新指標就會定期更新該字典,確保內(nèi)容及時性。數(shù)據(jù)血緣,即以數(shù)據(jù)表為點,以任務(wù)為線來顯示表間關(guān)系,便于追蹤數(shù)據(jù)來源和判斷問題。數(shù)據(jù)地圖,則是為了更方便尋找對應(yīng)的數(shù)據(jù)表,每張表都有清晰的說明,注釋及來源,仿佛一張地圖幫你定位某個具體的「地點」和「路徑」。此外,還有數(shù)據(jù)生命周期管理等等話題,在此就不一一展開。


3.2 分析展示

需求分散主要體現(xiàn)在時間分散和空間分散。時間分散指的是可能今天提了一次,可能隔個十天半個月再次出現(xiàn)類似的需求。空間分散是指類似的需求可能由不同的部門提出來。需求量彈性大指的是如果沒有一個合理的框架或思路去引導(dǎo)用戶,可能會導(dǎo)致需求量變得非常龐雜。但有了引導(dǎo)之后,可能一個現(xiàn)有的工具就能滿足了。需求實現(xiàn)也是一樣的道理,用 A 和 B 方案可能都可以滿足,但可能工作量會差別很大。因此根據(jù)不同層次的需求,我們通過三種遞進的方案來解決。
自定義分析:基本不需要數(shù)據(jù)和分析部門介入,提供工具就能滿足也業(yè)務(wù)需求。面對這種需求,轉(zhuǎn)轉(zhuǎn)內(nèi)部有三個解決方案。一是采用開源方案 HUE 搭建的 SQL 查詢功能,解決非常零碎且無法產(chǎn)品化的臨時需求。二是埋點的自動分析功能,只要按照數(shù)據(jù)規(guī)范進行的埋點,都可以在頁面查詢并分析數(shù)據(jù)。三是自定義報表分析界面,支持業(yè)務(wù)方導(dǎo)入數(shù)據(jù)表后進行可視化展示。這三種方案解決三種不同層次的需求,幫我們節(jié)省了大量人力。 事件分析:需要數(shù)據(jù)部門一定程度的抽象。常見的就是留存/漏斗分析,這些需求特征是「套路明顯」,有一定的培訓(xùn)成本,適用特定場景。 多維交叉分析:需要數(shù)據(jù)部門根據(jù)業(yè)務(wù)進行規(guī)劃和設(shè)計對應(yīng)的分析體系,包含合理的維度和指標。一般來說這會是一個部門的基準需求,使用頻次高,用于每天監(jiān)控及分析業(yè)務(wù)異常原因。
在分析體系建立上,也可以參考我之前寫的數(shù)據(jù)分析的基本方法論。
3.3 挖掘落地

挖掘落地一般著眼于數(shù)據(jù)和業(yè)務(wù)更緊密的結(jié)合,業(yè)務(wù)方能夠在日常工作中直接使用。這里舉我們的畫像檔案(天樞)和實時報警監(jiān)測(獬豸)舉例。

畫像檔案,本質(zhì)上是根據(jù)用戶/商品/訂單等客體的各種屬性進行組合篩選,分析和運營。它匯集了整個轉(zhuǎn)轉(zhuǎn)各個業(yè)務(wù)產(chǎn)生的用戶標簽和用戶行為數(shù)據(jù)。這些篩選出來的用戶可以進行定向 push 消息推送和活動展示,甚至可以和 APP 的千人千面聯(lián)系起來,定制某些標簽的用戶才能看到的入口。同時,該功能也方便了業(yè)務(wù)方導(dǎo)出具體的清單做分析,為數(shù)據(jù)組節(jié)省了大量人力。

實時報警預(yù)測,則是我們通過時間序列預(yù)測算法(Hot-Winters)兼異常維度分析算法(主要是改良版的基尼系數(shù)算法),實時監(jiān)控核心數(shù)據(jù)。當發(fā)生異常時,便能將報警信息通過通訊工具發(fā)出來,以及自動分析出可能存在原因。比如某天訂單異常升高,自動分析出來是手機品類異常升高導(dǎo)致的,直接詢問手機品類的負責(zé)人,得知他們開展了一場活動。數(shù)據(jù)異常監(jiān)測和定位變得非常迅速。
4. 后記
企業(yè)數(shù)據(jù)平臺是個比較復(fù)雜的數(shù)據(jù)產(chǎn)品,而且隨著公司體量上升復(fù)雜度會進一步提升。它的復(fù)雜一方面是承接了非常多的業(yè)務(wù)需求,如何抽象和管理就是一個問題。稍一不慎,不僅部門兄弟事倍功半疲于奔命,而且會產(chǎn)生大量無用的「報表尸體」,整個 BI 平臺就變成數(shù)據(jù)的垃圾場,焚尸堆。第二方面是數(shù)據(jù)長期來看是個細活、臟活、累活。如何保證數(shù)據(jù)安全,質(zhì)量,規(guī)范,需要不斷地設(shè)計各種機制來監(jiān)測和優(yōu)化,這無疑又衍生了另外一套系統(tǒng)。最后,如果這個平臺還希望能夠和業(yè)務(wù)產(chǎn)生一些互動和助力,更得不斷豐富場景,開發(fā)工具。但它作為企業(yè)管理和挖掘數(shù)據(jù)資產(chǎn)的抓手,在未來企業(yè)競爭中又會顯得無比重要。長路漫漫,砥礪前行。
參考文獻:
《 數(shù)據(jù)產(chǎn)品的前世今生》-老讀悟
《阿里巴巴的大數(shù)據(jù)實踐之路》- 阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部
《元數(shù)據(jù)?: 用數(shù)據(jù)的數(shù)據(jù)管理你的世界》— Jeffrey Pomerantz
《決戰(zhàn)大數(shù)據(jù)》- 車品覺
《數(shù)據(jù)倉庫工具箱 — 維度建模權(quán)威指南》
