如何全面科學(xué)地評估用戶標簽的質(zhì)量?數(shù)據(jù)管道關(guān)注共 2662字,需瀏覽 6分鐘 ·2021-02-09 14:52 “?標簽數(shù)據(jù)千萬條,業(yè)務(wù)價值第一條。”關(guān)于標簽畫像系統(tǒng),已經(jīng)有分享過用戶標簽有哪些類型,如何進行科學(xué)分類?。今天,針對標簽質(zhì)量評估,簡單進行一些分享。01—為什么要評估標簽質(zhì)量首先,為什么要進行標簽質(zhì)量評估?想象一下,我們開發(fā)了一個“用戶年齡”標簽,業(yè)務(wù)想針對20-30歲的人進行精準投放。但經(jīng)過篩選,才篩出來幾千個人,和公司總體用戶相比僅僅是九牛一毛,那這樣的標簽,還有價值不?因此,對標簽的質(zhì)量進行科學(xué)完整地評估,有助于指導(dǎo)標簽的管理者、開發(fā)者不斷地提升標簽質(zhì)量。通過創(chuàng)建一套完整的評估體系,對于質(zhì)量過差的標簽,不著急上線,等達到基本的質(zhì)量要求后再開放給業(yè)務(wù)使用。不然,既對業(yè)務(wù)帶來不了價值,也容易讓標簽畫像系統(tǒng)失去用戶的信任。回過頭來,上面這個例子反映的問題,其實就是標簽的質(zhì)量差。準確地說,是標簽的覆蓋度太低了。除了覆蓋度,還有很多指標可以衡量一個標簽的質(zhì)量,咱們在下面詳細展開,主要通過?數(shù)據(jù)質(zhì)量、應(yīng)用質(zhì)量、業(yè)務(wù)質(zhì)量?三個方面來評價標簽的質(zhì)量。02—標簽質(zhì)量評估:數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量是標簽質(zhì)量最基礎(chǔ)的評價,主要分為準確度、覆蓋度、穩(wěn)定性?三部分。(1)標簽的覆蓋度標簽覆蓋度的含義,是指在一個標簽中,有業(yè)務(wù)含義的人群數(shù)量與總?cè)巳簲?shù)量的比例。舉個例子,【性別】標簽,全量用戶是100萬的規(guī)模,其中40萬打上了“男性”標簽,35萬打上了“女性”標簽,其他25萬人都沒有打上任何標簽。那么,【性別】標簽的覆蓋度就是75%。這個覆蓋度還算是比較可以,想象一下如果覆蓋度只有20%,會有哪些影響呢?可能會有下面的負面影響用標簽進行人群圈選的時候,人數(shù)過少用標簽統(tǒng)計平臺用戶的特征時,和真實情況會有偏差因此,提升標簽的覆蓋度是標簽的基本質(zhì)量要求。為啥會出現(xiàn)標簽覆蓋度低的情況?往往是一些用戶自己填寫的標簽,覆蓋度極低,之前的文章中也介紹過。(2)標簽的準確度標簽準確度的含義,是指給用戶打的標簽中,準確反映事實的人群數(shù)量與總?cè)巳簲?shù)量的比例。舉個例子,【性別】標簽,用戶A真實情況是男性,但是打標簽打成了女性,那么這就是一個錯誤的標簽值。假設(shè)100萬用戶,真實情況50萬男性50萬女性,有以下表格:那么這個標簽的準確度就是:(35+30)/(35+5+5+30)=86.7%提升標簽準確度的意義也是不言而喻的。準確度如果太低,那這個標簽基本喪失了應(yīng)用價值。至于閾值的設(shè)置,還是基于各自的業(yè)務(wù)情況來定。(3)標簽的穩(wěn)定性標簽的穩(wěn)定性也是影響標簽質(zhì)量的重要因素。什么是穩(wěn)定性呢?舉個用戶年齡標簽的例子。昨天30歲以下的用戶有200萬,占比10%,今天就成了1000萬,占比50%。這種標簽數(shù)據(jù),你敢用么?是數(shù)據(jù)的計算邏輯出現(xiàn)問題,還是其他原因?qū)е拢?br>因此在標簽的質(zhì)量評估中,標簽值的相對穩(wěn)定性,是重要的評估標準之一。具體怎么衡量標簽的穩(wěn)定性呢?主要可以通過PSI指標的方式來衡量。PSI 計算步驟:假設(shè)我們要比較樣本A與樣本B中某一變量Y的分布,首先按照同一標準將Y分為幾個區(qū)間(通常分為10段),計算樣本A和樣本B中每個區(qū)間的占比。在每個區(qū)間段上,將兩個樣本的各自占比相除再取對數(shù),然后乘以各自占比之差,最后將各個區(qū)間段的計算值相加,得到最終PSI。最終計算的PSI指標中,若PSI<0.1 樣本分布有微小變化,模型基本可以不做調(diào)整。若PSI 在0.1~0.2之間,樣本分布有變化,根據(jù)實際情況調(diào)整評分切點或調(diào)整模型。若PSI>0.2,樣本分布有顯著變化,必須調(diào)整模型。03—標簽質(zhì)量評估:應(yīng)用質(zhì)量評估應(yīng)用質(zhì)量的評估是從產(chǎn)品角度出發(fā),評估標簽對于產(chǎn)品應(yīng)用的價值。若一個標簽的數(shù)據(jù)質(zhì)量高,但是用戶都用不起來,不好用,那么也是難以發(fā)揮出標簽內(nèi)在的價值。舉個常見的例子。大家都會做的一個標簽,【用戶近30天gmv值】。這個標簽(是個連續(xù)性值,但可以說是個廣義的標簽)按照上文的標準衡量,覆蓋度高,100%的用戶;準確度也高,100%(SQL正確的話……)。那這個標簽有用嗎?往往業(yè)務(wù)不太愛用這種連續(xù)值的標簽。為什么?因為這種標簽的應(yīng)用質(zhì)量太差了。對于業(yè)務(wù)來講,【近30天gmv值】是1萬美金,這個是高還是低?如果是沒有經(jīng)驗的業(yè)務(wù)人員是完全無法判斷的。因此,要將這種標簽的應(yīng)用價值提升。針對這個例子,提升的方法可以是把連續(xù)值分段,做成【高價值】、【中價值】、【低價值】,也可以做分布曲線給用戶提供參考。再比如,一個標簽是用戶常用的搜索詞,如果不進行一些特殊的加工,將是很冗余的長串字符,用起來也是體驗很差。這也屬于應(yīng)用質(zhì)量低。關(guān)于應(yīng)用價值的衡量,往往會用一些滯后性的指標衡量?;A(chǔ)假設(shè)是,業(yè)務(wù)人員用的多的標簽,一定是應(yīng)用質(zhì)量好的;業(yè)務(wù)人員用得少的標簽,一定是應(yīng)用質(zhì)量弱的。具體衡量應(yīng)用多少的指標,可以用【使用次數(shù)】、【使用熱度】、【調(diào)用次數(shù)】等來綜合衡量。對于應(yīng)用價值低的標簽,可以針對性地進行分析,不斷提升每個標簽的應(yīng)用價值。04—標簽質(zhì)量評估:業(yè)務(wù)價值評估最后一個衡量標簽質(zhì)量的方面,就是業(yè)務(wù)質(zhì)量。這個方面是最不好衡量的,但又是最最重要的。因為相比于數(shù)據(jù)質(zhì)量是從數(shù)據(jù)層出發(fā)、應(yīng)用質(zhì)量是從產(chǎn)品層出發(fā),業(yè)務(wù)質(zhì)量是從業(yè)務(wù)層出發(fā),是離業(yè)務(wù)價值最近的。想象一下,業(yè)務(wù)如果用了一個標簽,對一群人進行了投放,ROI是日常投放的好幾倍,那這個標簽的價值可以說是毋庸置疑了。這時,我們可以說這個標簽的業(yè)務(wù)質(zhì)量很高。什么樣的標簽的業(yè)務(wù)質(zhì)量會比較高呢?比如:【用戶購買偏好】、【用戶的營銷敏感度】等等。這類的標簽往往都是一些復(fù)雜邏輯的算法標簽,常常有比較強的業(yè)務(wù)質(zhì)量。但這里存在的一個悖論,就是業(yè)務(wù)質(zhì)量是后驗的。即想知道一個標簽的業(yè)務(wù)質(zhì)量,就一定要進行投放測試才行。而且往往不同場景的一些投放帶來的結(jié)果也不太一樣,就導(dǎo)致業(yè)務(wù)質(zhì)量的評估往往很難落地。這確實是個難點。作者的經(jīng)驗是,在評估標簽質(zhì)量時,先重點考慮數(shù)據(jù)質(zhì)量和應(yīng)用質(zhì)量,這兩者都沒問題的時候,就可以上線開放給業(yè)務(wù)使用。但對于業(yè)務(wù)使用標簽后的數(shù)據(jù)進行回流,監(jiān)控標簽應(yīng)用在業(yè)務(wù)場景的價值情況。最終可以有個比較公允的衡量。而這個衡量,將對后面標簽的優(yōu)化方向,帶來很強的指導(dǎo)性意義。·················END·················推薦閱讀說說心里話寫給所有數(shù)據(jù)人。從留存率業(yè)務(wù)案例談0-1的數(shù)據(jù)指標體系NB,真PDF神處理工具!超級菜鳥如何入門數(shù)據(jù)分析?歡迎長按掃碼關(guān)注「數(shù)據(jù)管道」 瀏覽 73點贊 評論 收藏 分享 手機掃一掃分享分享 舉報 評論圖片表情視頻評價全部評論推薦 架構(gòu)權(quán)衡評估方法(ATAM):如何評估一個系統(tǒng)的質(zhì)量JAVA前線0架構(gòu)權(quán)衡評估方法(ATAM):如何評估一個系統(tǒng)的質(zhì)量java12340標簽數(shù)據(jù)——用戶標簽有哪些類型,如何進行科學(xué)分類?數(shù)據(jù)D江湖0這不科學(xué)! : 如何科學(xué)地思考偽這不科學(xué)! : 如何科學(xué)地思考偽0這不科學(xué)! : 如何科學(xué)地思考偽連修7版的科普+邏輯思辨跨界暢銷書 淬煉百毒不侵的理智思維,從不實中提取真實! ? 編輯穩(wěn)賺 : 如何輕松、科學(xué)、持續(xù)地穩(wěn)賺 : 如何輕松、科學(xué)、持續(xù)地0用戶畫像-標簽體系浪尖聊大數(shù)據(jù)0穩(wěn)賺 : 如何輕松、科學(xué)、持續(xù)地金錢無限,時間有限。經(jīng)濟獨立,越快越好。 2010年8月25日,格蘭特?薩巴蒂爾(Grant 用戶標簽——理解與洞察用戶需求的關(guān)鍵易觀數(shù)科0都在談?wù)摰挠脩魳撕炁c畫像,到底如何應(yīng)用?易觀數(shù)科0點贊 評論 收藏 分享 手機掃一掃分享分享 舉報