阿里數(shù)據(jù)技術(shù)專家的數(shù)據(jù)平臺實戰(zhàn)筆記
簡介:2020 年注定是不同尋常的,突如其來的疫情按下了人們生活的暫停鍵。對于用戶激增的 App 而言有喜有憂,如何快速沉淀數(shù)據(jù)資產(chǎn),因為疫情是脈沖式的需求,等疫情結(jié)束之后,如何把這些激增的用戶轉(zhuǎn)化為留存是很大的挑戰(zhàn)。對于非利好的 App,如何讓數(shù)據(jù)成為護城河。回答這兩個問題,數(shù)據(jù)智能平臺的建設(shè)尤其重要。
背景
從友盟+公開的移動互聯(lián)網(wǎng)數(shù)據(jù)報告來看,疫情期間移動互聯(lián)網(wǎng)設(shè)備活躍度穩(wěn)步提升。其中游戲行業(yè)增幅 15%,是 2019 年的 2 倍;影視增幅 8%,是去年的 3 倍左右;辦公通訊上漲明顯,增幅 150%,網(wǎng)上藥店活躍設(shè)備增幅由負(fù)轉(zhuǎn)正,增幅 61%;旅游與汽車的降幅是去年的 3-4 倍,分別下跌 55%及 29%。
疫情后的機會點:
1.拉新變留存。對于用戶激增的 App 而言有喜有憂,因為疫情是一個脈沖式的需求,等疫情結(jié)束之后,如何把這些激增的用戶轉(zhuǎn)化為留存是一個很大的挑戰(zhàn)。實時化的數(shù)據(jù)資產(chǎn)的沉淀成為挑戰(zhàn)。這時候需要修煉好數(shù)據(jù)的內(nèi)功,重視數(shù)據(jù)資產(chǎn)的沉淀,運營好自己的私域數(shù)據(jù)池。
2.智能化運營。有的數(shù)據(jù)的底料,我們可以更加的進行精細(xì)化的一些運營。比如分層運營,智能營銷,實現(xiàn)業(yè)務(wù)的數(shù)據(jù)化,并且讓數(shù)據(jù)指導(dǎo)業(yè)務(wù)的發(fā)展提供前提。
3.練好數(shù)據(jù)的內(nèi)功。建設(shè)數(shù)據(jù)智能平臺。數(shù)據(jù)也是資產(chǎn),數(shù)據(jù)智能平臺的建設(shè),好比把礦石煉成 98 號的汽油,再通過清潔的能源向業(yè)務(wù)不斷賦能的過程。
什么是數(shù)據(jù)智能平臺
數(shù)據(jù)智能研發(fā)平臺,是基于數(shù)據(jù)基礎(chǔ)能力,打造專業(yè)、高效、安全的一站式智能研發(fā)平臺。支持實時與離線數(shù)據(jù)集成、開發(fā)運維、工作流調(diào)度、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全的全鏈路數(shù)據(jù)管理,滿足數(shù)據(jù)治理、數(shù)據(jù)血緣、數(shù)據(jù)質(zhì)量、安全管控,標(biāo)簽應(yīng)用的需求。
面臨的挑戰(zhàn)
挑戰(zhàn)主要集中在 4 個方面,從算力、數(shù)據(jù)、算法以及業(yè)務(wù):
基礎(chǔ)設(shè)施的建設(shè)不是一觸而就的,需要大量的人力物力財力。主要是機房、機架、網(wǎng)絡(luò)、帶寬。
數(shù)據(jù)分成兩個部分,基礎(chǔ)數(shù)據(jù)以及標(biāo)簽的數(shù)據(jù),那么基礎(chǔ)數(shù)據(jù)存在的問題是缺乏統(tǒng)一的建設(shè)標(biāo)準(zhǔn)以及質(zhì)量的評估。我們知道歐盟有很多的成員國,成員國之前是各自發(fā)行貨幣的,不利于整體經(jīng)濟的發(fā)展。數(shù)據(jù)也是一樣,需要同樣的標(biāo)準(zhǔn)去建設(shè),促進數(shù)據(jù)的一個流通,這是基礎(chǔ)數(shù)據(jù)存在的問題。對于標(biāo)簽數(shù)據(jù)而言,我們的生產(chǎn)管理服務(wù)應(yīng)用整個鏈路是斷裂的,無法最大的提高一個標(biāo)簽生產(chǎn)的效率。
算法工程上,煙囪式的垂直類的一個開發(fā),比如說廣告和搜索,它在特征到工程上面都是重復(fù)開發(fā)的。
業(yè)務(wù)上,數(shù)據(jù)的建設(shè)周期比較長,趕不上業(yè)務(wù)的一個發(fā)展。
體系介紹
底料篇
以友盟+為例。經(jīng)過了 9 年專業(yè)的大數(shù)據(jù)的服務(wù),積累下了 PC 網(wǎng)站的 APP 的數(shù)據(jù)以及廣告監(jiān)測類的數(shù)據(jù)。面臨的一個問題,如何把大體量的數(shù)據(jù)穩(wěn)定高質(zhì)量的同步到計算平臺,自研的一鍵的數(shù)據(jù)同步的工具,打通業(yè)務(wù)系統(tǒng)到大數(shù)據(jù)之間的元數(shù)據(jù)平臺,同時業(yè)務(wù)系統(tǒng)的增刪改也會通知到大數(shù)據(jù)測。
建設(shè)篇:

公共數(shù)據(jù)中心的建設(shè),核心是為了解決指標(biāo)一致性的問題。
按業(yè)務(wù)域和分析維度構(gòu)建公共數(shù)據(jù)中心。什么叫業(yè)務(wù)板塊?比如亞馬遜,它是有電商和云兩塊業(yè)務(wù)的,那么這兩塊業(yè)務(wù)其實就是業(yè)務(wù)板塊,我們一個抽取電商業(yè)務(wù)來看,有日志、交易、物流、廣告等最基礎(chǔ)的一些數(shù)據(jù)組成,這就叫做數(shù)據(jù)域。數(shù)據(jù)域是業(yè)務(wù)過程的集合,以交易為例,分付款,退拍下和退款,這三個業(yè)務(wù)過程共用的一個訂單 ID,所以在一張事實表里。交易的過程有維度刻畫,有商品、買家、賣家這些維度構(gòu)成了維表,比如買家的昵稱、注冊的時間。維表冗余在實時表中的好處是減少大數(shù)據(jù)量的 join,保證數(shù)據(jù)的穩(wěn)定高效的產(chǎn)出。通過建設(shè)可以讓由礦石變成 92 號的汽油,這個時候數(shù)據(jù)就可以被使用了,這是基礎(chǔ)數(shù)據(jù)建設(shè)的部分。
所有的運營產(chǎn)品、市場等業(yè)務(wù)的同學(xué)使用的數(shù)據(jù)全部叫做指標(biāo),這些指標(biāo)全部是派生指標(biāo)。跟大家一起拆解一個指標(biāo),叫最近 30 天會員在無線端的登錄次數(shù),那么最近 30 天就是時間周期,會員是統(tǒng)計粒度,統(tǒng)計粒度對應(yīng)的最左邊的維度信息。無線端就是業(yè)務(wù)限定,登錄的次數(shù)就是原子指標(biāo)。登錄次數(shù)加業(yè)務(wù)限定就等于上面圖表中最左邊的業(yè)務(wù)過程。那這個指標(biāo)拆解的過程怎么去映射到我們的技術(shù)數(shù)據(jù),怎么關(guān)聯(lián)呢?
再舉兩個例子。很多人可能簡單自學(xué) SQL 后,就可以自己跑數(shù)據(jù):通常情況下,SQL 質(zhì)量無法保證,如果查詢的數(shù)據(jù)量非常大,可能后臺幾千臺機器就轉(zhuǎn)起來了。為避免類似情況發(fā)生,我們會在提交任務(wù)過程中做代碼校驗,對于性能問題、規(guī)范問題、代碼質(zhì)量問題都會給出必要的提示,比如 SQL 代碼對于除數(shù)為 0 沒有做代碼兼容,比如我們的 DDL 語句中沒有做數(shù)據(jù)生命周期的設(shè)置,比如 SQL 的 QUERY 中沒有做分區(qū)的條件限制,甚至你的 SQL 代碼別人已經(jīng)計算過,可以復(fù)用結(jié)果不需要重新計算這些問題,我們都會給出精確到提示。
在數(shù)據(jù)研發(fā)過程中,代碼編寫可能只占工作量的 20%,那么大部分時間都去干嗎了?是數(shù)據(jù)驗證,代碼修改前和代碼修改后,數(shù)據(jù)到底差多少,差在哪兒?過去如果沒有工具只能寫一堆腳本,再去驗證,效率極其低下,而且極易出錯。現(xiàn)在有了“數(shù)據(jù)對比”工具,就可以通過簡單的勾勾選選知道前后差異到底在哪?然后迅速給測試報告,保證整個研發(fā)過程的數(shù)據(jù)質(zhì)量是有保障的。有了工具的建設(shè),最后是運維。核心是要用最優(yōu)的資源保障最重要的數(shù)據(jù)及時的產(chǎn)出。
標(biāo)準(zhǔn)化篇

以 IP to 地域為例,有閱讀類的 App 做本地的資訊,這個服務(wù)在市場上面是很普遍的,但準(zhǔn)確度只能做到 65%;再以游戲 App 為例,比如說品牌 /機型代表購買力,屏幕 /內(nèi)存容量供開發(fā)者優(yōu)化迭代產(chǎn)品。這些參數(shù)要是開發(fā)者去采集的話,會遇到特別多的問題,比如手機機型是 0011X,0011X 代表 iPhone11,那么集合于這兩類的需求,這個時候就需要運用全域數(shù)據(jù)的能力,在高維的空間精準(zhǔn)識別匹配信息。
反作弊篇

整個過程的反作弊怎么做?比如有一款視頻類的 App 在做用戶分層,一共 5 層,大多數(shù)精細(xì)化運營同學(xué)都會這么去做。第 1 層是超級用戶,第 2 層是黑產(chǎn)設(shè)備。作弊數(shù)據(jù)對標(biāo)簽也是一種噪聲,對于簡單的機刷,用規(guī)則就可以識別出來。比如 IP 的黑名單庫,設(shè)備的黑名單庫。但是隨著這些技術(shù)的日新月異,對于模擬器而言,要采用機器學(xué)習(xí)的方式,從行為數(shù)據(jù)中加以判斷。還有種是“群控”,也就是羊毛黨。第 3 層--第 5 層分別是高質(zhì)量、中質(zhì)量和低質(zhì)量。
規(guī)則,IP 的黑名單庫,設(shè)備的黑名單庫。對于模擬器,采用機器學(xué)習(xí)的方式,從行為數(shù)據(jù)中加以判斷,對于群控羊毛黨采用圖算法。多管齊下,濾掉 86%的一個假量。
打通篇

與此同時,互聯(lián)網(wǎng)和傳統(tǒng)行業(yè)一樣都會存在著數(shù)據(jù)的孤島,因為我們現(xiàn)在客戶的觸點是非常多的,比如說有傳統(tǒng)的 PC 網(wǎng)站,有 App,有小程序。在跨端上面,比如兩個小程序,A 上用戶少,成交率高;B 上用戶多,成交率低,要進行跨端的數(shù)據(jù)的運營。有 PC 和無線數(shù)據(jù),PC 上面點了一個商品,App 上把相應(yīng)商品或者相應(yīng)的文章來推薦給用戶,這樣來看用戶的留存將會得到極大的一個提升。設(shè)備聚合的主要場景是看小程序和 App 一共有多少用戶。
標(biāo)簽篇

標(biāo)簽是通過行為分析認(rèn)知用戶的一個過程。是數(shù)據(jù)分析的一個起點,比如最近 30 天來過北京 2 次的人群,只要有業(yè)務(wù)價值,它就是一個標(biāo)簽。標(biāo)簽的分類,分有統(tǒng)計性和預(yù)測性,區(qū)別在統(tǒng)計型標(biāo)簽不需要樣本集和準(zhǔn)確度。那標(biāo)簽有什么作用呢?
一、市場細(xì)分和用戶分群:市場營銷領(lǐng)域的重要環(huán)節(jié)。比如在新品發(fā)布時,定位目標(biāo)用戶,切分市場。這是營銷研究公司會經(jīng)常用的方式。
二、數(shù)據(jù)化運營和用戶分析。后臺 PVUV 留存等數(shù)據(jù),如果能夠結(jié)合用戶畫像一起分析就會清晰很多,揭示數(shù)據(jù)趨勢背后的秘密。
三、精準(zhǔn)營銷和定向投放。比如某產(chǎn)品新款上市,目標(biāo)受眾是白領(lǐng)女性,在廣告投放前,就需要找到符合這一條件的用戶,進行定向廣告投放。?四、各種數(shù)據(jù)應(yīng)用:例如推薦系統(tǒng)、預(yù)測系統(tǒng)。我們認(rèn)為:未來所有應(yīng)用一定是個性化的,所有服務(wù)都是千人千面的。而個性化的服務(wù),都需要基于對用戶的理解,前提就需要獲得用戶畫像。
常用的一些標(biāo)簽體系(以下均為大數(shù)據(jù)預(yù)測結(jié)果):?第一類:人口屬性。比如說性別、年齡、常駐地、籍貫,甚至是身高、血型,這些東西叫做人口屬性。
第二類:社會屬性。因為我們每個人在社會里都不是一個單獨的個體,一定有關(guān)聯(lián)關(guān)系的,如婚戀狀態(tài)、受教育程度、資產(chǎn)情況、收入情況、職業(yè),我們把這些叫做社會屬性。
第三類,興趣偏好。攝影、運動、吃貨、愛美、服飾、旅游、教育等,這部分是最常見的,也是最龐大的,難以一一列舉完。
第四類,意識認(rèn)知。消費心理、消費動機、價值觀、生活態(tài)度、個性等,是內(nèi)在的和最難獲取的。舉個例子,消費心理 /動機。用戶購物是為了炫耀,還是追求品質(zhì),還是為了安全感,這些都是不一樣的。?如何判斷標(biāo)簽體系的好壞?
在實際構(gòu)建標(biāo)簽體系時,大家經(jīng)常會遇到很多困惑,我列舉 5 個常見問題:
第一、怎樣的標(biāo)簽體系才是正確的?其實每種體系各有千秋,要結(jié)合實際應(yīng)用去評估。
第二、標(biāo)簽體系需要很豐富么?標(biāo)簽是枚舉不完的,可以橫線延展、向下細(xì)分。也可以交叉分析,多維分析。如果沒有自動化的方式去挖掘,是很難做分析的,太多的標(biāo)簽反而會帶來使用上的障礙。
第三、標(biāo)簽體系需要保持穩(wěn)定么?不是完全必要,標(biāo)簽體系就是產(chǎn)品 /應(yīng)用的一部分,要適應(yīng)產(chǎn)品的發(fā)展,與時俱進。比如, “新冠”這個詞,今天卻很熱。我們是不是要增加一個標(biāo)簽,分析哪些人有購買新冠相關(guān)的防疫藥品。有一種情況下,標(biāo)簽要保持穩(wěn)定。如果你生產(chǎn)的標(biāo)簽有下游模型訓(xùn)練的依賴,即我們模型建完后,它的輸入是要保持穩(wěn)定的,不能今天是 ABC,明天是 BCD。在這種情況下,是不能輕易對標(biāo)簽體系做更改的。
第四個,樹狀結(jié)構(gòu) or 網(wǎng)狀結(jié)構(gòu)?樹狀結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)從名字上就可以看出其分別。網(wǎng)狀結(jié)構(gòu),更符合現(xiàn)實,但是層次關(guān)系很復(fù)雜,對數(shù)據(jù)的管理和存儲都有更高要求。知乎,如果仔細(xì)去看它的話題設(shè)置,其實是網(wǎng)狀的。
網(wǎng)狀的特點就是一個子話題,父級可以不止一個,可能有兩個。比如兒童玩具,既可以是母嬰下分分類,也可以是玩具下的分類,它就會存在兩個父節(jié)點之下。樹狀結(jié)構(gòu)相對簡單,也是我們最常用的。網(wǎng)狀結(jié)構(gòu)在一些特定場景下,我們也會去用。但是實現(xiàn)和維護的成本都比較高。比如,有一個節(jié)點是第四級的,但它的兩個父節(jié)點一個是二級,一個是三級,結(jié)構(gòu)異化帶來處理上的麻煩。
第五個,何為一個好的標(biāo)簽體系?應(yīng)用為王,不忘初心。標(biāo)簽是為了用的,并不是為了好玩,最好保證標(biāo)簽體系的靈活和細(xì)致性。
智能篇:

數(shù)據(jù)智能的建設(shè)指分析、洞察、策略、效果的工程化能力,有了這些智能的工程化能力,就能通過引擎向外暴露接口的方式來支持百花齊放的業(yè)務(wù),支持所有開發(fā)者的業(yè)務(wù),這就是友盟+采建管用一站式服務(wù)平臺的整個建設(shè)過程,開發(fā)者可以借此為例,快速自建、或依靠友盟+的技術(shù)能力,豐富自己的數(shù)據(jù)智能平臺 /數(shù)據(jù)銀行的建設(shè)。
規(guī)劃和感想
第一,快速建模的能力。實時自動的標(biāo)簽產(chǎn)出,或者結(jié)合業(yè)務(wù)場景的實時化,能最大保障智能化運營的及時性;
第二,不能只說這個用戶對汽車感興趣,而是需要細(xì)分到車型、價位,甚至他去買車時,會關(guān)注駕駛乘坐的舒適性、操控的靈活性,還是內(nèi)飾的細(xì)節(jié)。
來源:https://developer.aliyun.com/article/747452
版權(quán)申明:內(nèi)容來源網(wǎng)絡(luò),版權(quán)歸原創(chuàng)者所有。除非無法確認(rèn),我們都會標(biāo)明作者及出處,如有侵權(quán)煩請告知,我們會立即刪除并表示歉意。謝謝!

