<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          推薦系統(tǒng)之標簽體系

          共 4386字,需瀏覽 9分鐘

           ·

          2021-06-01 18:55

          為什么要先介紹標簽體系?

          一個推薦系統(tǒng)效果好與壞最基本的保障、最基礎(chǔ)的是什么?如果讓我來回答,一定是標簽體系。
          我這里說的標簽主要是針對物料的,對于電商平臺來說就是商品;對于音樂平臺來說就是每一個首歌,對于新聞資訊平臺來說就是每一條新聞。對于用戶畫像中那些用戶實時變化的興趣點大都也是來自于標簽體系,依據(jù)用戶長期和短期行為中對于物料搜索、點擊、收藏、評論、轉(zhuǎn)發(fā)等事件,將物料的標簽傳導(dǎo)到用戶畫像上,就構(gòu)成了用戶的實時畫像和離線畫像中的各個動態(tài)維度。

          標簽體系概覽

          以京東的標簽體系中的京東超市為例用思維導(dǎo)圖來拆解,后面我們會詳細的介紹如何構(gòu)建標簽體系。
          這里對京東超市標簽拆解粒度到三只松鼠年貨大禮包的實體級別,實際上各個公司的標簽體系大致都是如下構(gòu)成
          一、二、三級分類體系都很好理解,參考京東超市的拆解,相信大家就會明白。標簽體系中實體標簽和概念標簽不好理解。

           實體標簽



          必須是名詞,且必須是唯一指代。
          學術(shù)性的解釋逼格高,但是不容易理解,回答下面的問題
          • 老板問:蘋果,是實體標簽嗎?
          • 給你三秒鐘思考
          • 你回答:是!
          • 老板說:錯!
          • 你懵逼:靠!為啥不是?
          實體標簽的要求:名詞,且唯一指代。
          蘋果,是名詞,但不是唯一指代,蘋果 = 科技公司、手機、水果、牛仔褲


           概念標簽



          難道我就不能用“蘋果”了嗎?當然可以用,只不過要給它另外起個名字:概念標簽。
          概念標簽通常表示的是“一類”或“某種相似”的內(nèi)容,例如


           主題詞 


          這里以之家的標簽體系舉例,要給買車用戶推薦評測導(dǎo)購(一級)的文章,用戶畫像中車的品牌(二級)偏好太粗,而實體標簽如奔馳GLC又太細,填補這中間的粒度空白,滿足用戶購車意圖的畫像,就加入“代步優(yōu)選”的主題詞,這樣不僅保持了推薦的多樣性,又不至于過分精準而導(dǎo)致的極度收斂。
          以上大致介紹了一下標簽體系,那么我們接下介紹一下如何構(gòu)建標簽體系以及其構(gòu)建過程中應(yīng)遵循的一些原則。

          標簽體系構(gòu)建原則

          原則一、放棄?而全的框架,以業(yè)務(wù)場景倒推標簽需求
          原則二、標簽生成自助化,解決效率和溝通成本
          原則三、有效的標簽管理機制
          分別解釋以下為什么提煉出這三個原則,分別用于解決什么問題?
          關(guān)于第一項原則:
          每個公司的產(chǎn)品、運營、商務(wù)對標簽的訴求有較大的差異,同時不同的運營團隊的訴求也存在很大差異,?而全的標簽框架實際是站在用戶視角搭建的,但是標簽的真正應(yīng)用者是業(yè)務(wù)方,所以應(yīng)該從業(yè)務(wù)視角來實現(xiàn)。
          因此最佳的處理方式是,我們應(yīng)該放棄頂層的用戶抽象視角,針對各業(yè)務(wù)線或部門的訴求和實際的應(yīng)用場景,分別將標簽聚類起來提供給相應(yīng)部門。
          之家就是非常典型的情況,商業(yè)同學更關(guān)心用戶的消費能力相關(guān)的標簽;自駕游負責同學更關(guān)心用戶的位置和出行相關(guān)的標簽;車友圈的同學更關(guān)注用戶的社交活躍相關(guān)的標簽;所以不可能一套標簽覆蓋整個運營團隊, 這種以業(yè)務(wù)場景倒推標簽需求的方法,能夠與業(yè)務(wù)場景貼合更緊密,可用性上升。
          關(guān)于第二項原則:
          1. 標簽生成的自助化能夠讓溝通成本降最低
          前面講到各業(yè)務(wù)線對標簽的定義的理解不同,需要標簽系統(tǒng)建設(shè)團隊花費大量的時間溝通。如果能夠讓業(yè)務(wù)方自己定義規(guī)則,這必然是溝通成本最低的方式。
          2. 標簽生成的自助化,可重復(fù)修改的規(guī)則,降低無效標簽的堆積
          業(yè)務(wù)一直在發(fā)展,如果規(guī)則一成不變則很難跟上業(yè)務(wù)節(jié)奏的變化。我曾拜訪過一家電商,他們發(fā)現(xiàn)半年前定義“母嬰客戶群”的轉(zhuǎn)化率一直在降低,因此根據(jù)實際情況重新修改和定義了“母嬰客戶群”規(guī)則,并命名為“母嬰客戶群(新)”,這時之前的規(guī)則是無效的,且會一直占據(jù)計算資源……諸如此類,如果支持規(guī)則重復(fù)修改的話,這一類無效標簽就會大量地消失。
          3. 釋放數(shù)據(jù)團隊人力,釋放業(yè)務(wù)團隊的想象力
          數(shù)據(jù)團隊應(yīng)該花較多的精力在企業(yè)的整個數(shù)據(jù)中臺或新業(yè)務(wù)模型方面,而不是處理各業(yè)務(wù)線的標簽訴求和標簽維護上,自動化的標簽生成能夠極大限度地節(jié)省人力和釋放團隊想象力。
          關(guān)于第三項原則:
          1. 規(guī)則及元信息維護
          標簽相關(guān)的規(guī)則和元信息要盡可能的暴露給使用者,讓使用者在使用的時候,能清楚知道標簽的規(guī)則是什么、創(chuàng)建者是誰、維護者是誰、標簽的更新頻率周期等,而不是沒有規(guī)則,或者將規(guī)則存在標簽建設(shè)團隊內(nèi)部的一個 word 文檔中。
          2. 調(diào)度機制及信息同步
          標簽之間有一些關(guān)聯(lián),標簽之間的鏈條斷裂,是否有個調(diào)度機制或者信息同步機制讓大家的工作不被影響。
          3. 高效統(tǒng)一的輸出接口
          將所有的業(yè)務(wù)信息和用戶數(shù)據(jù)信息匯總在一起,有統(tǒng)一的輸出接口,改變之前需要針對不同的業(yè)務(wù)系統(tǒng)開發(fā)不同接口的情況。
          我們回顧標簽體系構(gòu)建的三原則,本質(zhì)上是解決了價值、手段、可持續(xù)性三方面的問題:以業(yè)務(wù)場景倒推需求,讓業(yè)務(wù)方用起來作為最終目標,讓標簽系統(tǒng)價值得以實現(xiàn);標簽生成的自助化,它解決的是我們用什么樣的手段去實現(xiàn)價值;有效的標簽管理機制,意味著一套標簽體系能否可持續(xù)性地在一家企業(yè)里面運作下去。
          總之,對企業(yè)最重要的是:一套標簽系統(tǒng)能不能在業(yè)務(wù)上用起來,能不能覆蓋更廣泛的需求,而不是一個大而全的框架。

          標簽體系構(gòu)建方法

           標簽體系的實施架構(gòu) 


          標簽體系架構(gòu)可以分為三個部分:數(shù)據(jù)加工層,數(shù)據(jù)服務(wù)層,數(shù)據(jù)應(yīng)用層。每個層面面向用戶對象不一樣,處理事務(wù)有所不同。層級越往下,與業(yè)務(wù)的耦合度就越小。層級越往上,業(yè)務(wù)關(guān)聯(lián)性就越強。
          以某電商公司為例:
          數(shù)據(jù)加工層
          數(shù)據(jù)加工層收集,清洗和提取來處理數(shù)據(jù)。M公司有多個產(chǎn)品線:電商交易,電子書閱讀,金融支付,智能硬件等等。每個產(chǎn)品線的業(yè)務(wù)數(shù)據(jù)又是分屬在不同位置。為了搭建完善的用戶標簽體系,需要盡可能匯總最大范圍內(nèi)的數(shù)據(jù)。同時每個產(chǎn)品線的也要集合所有端的數(shù)據(jù),比如:App,web,微信,其它第三方合作渠道。
          收集了所有數(shù)據(jù)之后,需要經(jīng)過清洗:去重,去刷單數(shù)據(jù),去無效數(shù)據(jù),去異常數(shù)據(jù)等等。然后再是提取特征數(shù)據(jù),這部分就要根據(jù)產(chǎn)品和運營人員提的業(yè)務(wù)數(shù)據(jù)要求來做就好。
          數(shù)據(jù)業(yè)務(wù)層
          數(shù)據(jù)加工層為業(yè)務(wù)層提供最基礎(chǔ)數(shù)據(jù)能力,提供數(shù)據(jù)原材料。業(yè)務(wù)層屬于公共資源層,并不歸屬某個產(chǎn)品或業(yè)務(wù)線。它主要用來維護整個標簽體系,集中在一個地方來進行管理。
          在這一層,運營人員和產(chǎn)品能夠參與進來,提出業(yè)務(wù)要求:將原材料進行切割。主要完成以下核心任務(wù):
          • 定義業(yè)務(wù)方需要的標簽
          • 創(chuàng)建標簽實例
          • 執(zhí)行業(yè)務(wù)標簽實例,提供相應(yīng)數(shù)據(jù)
          數(shù)據(jù)應(yīng)用層
          應(yīng)用層的任務(wù)是賦予產(chǎn)品和運營人員標簽的工具能力,聚合業(yè)務(wù)數(shù)據(jù),轉(zhuǎn)化為用戶的槍火彈藥,提供數(shù)據(jù)應(yīng)用服務(wù)。
          業(yè)務(wù)方能夠根據(jù)自己的需求來使用,共享業(yè)務(wù)標簽,但彼此業(yè)務(wù)又互不影響。實踐中可應(yīng)用到以下幾塊:
          • 智能營銷
          • Feed流推薦
          • 個性化消息push

           標簽體系的設(shè)計 


          1. 業(yè)務(wù)梳理
          以業(yè)務(wù)需求為導(dǎo)向,可以按下面的思路來梳理標簽體系:
          • 有哪些產(chǎn)品線?產(chǎn)品線有哪些來源渠道?一一列出
          • 每個產(chǎn)品線有哪些業(yè)務(wù)對象?比如用戶,商品
          • 最后再根據(jù)對象聚合業(yè)務(wù),每個對象涉及哪些業(yè)務(wù)?每個業(yè)務(wù)下哪些業(yè)務(wù)數(shù)據(jù)和用戶行為?
          結(jié)果類似如下:
          2. 標簽分類
          按業(yè)務(wù)需求梳理了業(yè)務(wù)數(shù)據(jù)后,可以繼續(xù)按照業(yè)務(wù)產(chǎn)出對象的屬性來進行分類,主要目的:
          • 方便管理標簽,便于維護和擴展
          • 結(jié)構(gòu)清晰,展示標簽之間的關(guān)聯(lián)關(guān)系
          • 為標簽建模提供子集。方便獨立計算某個標簽下的屬性偏好或者權(quán)重
          梳理標簽分類時,盡可能按照MECE原則,相互獨立,完全窮盡。每一個子集的組合都能覆蓋到父集所有數(shù)據(jù)。標簽深度控制在四級比較合適,方便管理,到了第四級就是具體的標簽實例。
          3. 標簽的模型
          按數(shù)據(jù)的實效性來看,標簽可分為
          • 靜態(tài)屬性標簽。長期甚至永遠都不會發(fā)生改變。比如性別,出生日期,這些數(shù)據(jù)都是既定的事實,幾乎不會改變
          • 動態(tài)屬性標簽。存在有效期,需要定期地更新,保證標簽的有效性。比如用戶的購買力,用戶的活躍情況
          從數(shù)據(jù)提取維度來看,標簽數(shù)據(jù)又可以分為類型。
          • 事實標簽。既定事實,從原始數(shù)據(jù)中提取。比如通過用戶設(shè)置獲取性別,通過實名認證獲取生日,星座等信息
          • 模型標簽。沒有對應(yīng)數(shù)據(jù),需要定義規(guī)則,建立模型來計算得出標簽實例。比如支付偏好度
          • 預(yù)測標簽。參考已有事實數(shù)據(jù),來預(yù)測用戶的行為或偏好。比如用戶a的歷史購物行為與群體A相似,使用協(xié)同過濾算法,預(yù)測用戶a也會喜歡某件物品
          4. 標簽的處理
          為什么要從兩個維度來對標簽區(qū)分?這是為了方便用戶標簽的進一步處理。
          靜態(tài)動態(tài)的劃分是面向業(yè)務(wù)維度,便于運營人員理解業(yè)務(wù)。這一點能幫助他們:
          • 理解標簽體系的設(shè)計
          • 表達自己的需求
          事實標簽,模型標簽,預(yù)測標簽是面向數(shù)據(jù)處理維度,便于技術(shù)人員理解標簽?zāi)K功能分類,幫助他們:
          • 設(shè)計合理數(shù)據(jù)處理單元,相互獨立,協(xié)同處理
          • 標簽的及時更新及數(shù)據(jù)響應(yīng)的效率
          以上面的標簽圖表為例,面臨以下問題:
          • 屬性信息缺失怎么辦?比如,現(xiàn)實中總有用戶未設(shè)置用戶性別,那怎么才能知道用戶的性別呢?
          • 行為屬性,消費屬性的標簽?zāi)懿荒莒`活設(shè)置?比如,活躍運營中需要做A/B test,不能將品牌偏好規(guī)則寫死,怎么辦?
          • 既有的屬性創(chuàng)建不了我想要的標簽?比如,用戶消費能力需要綜合結(jié)合多項業(yè)務(wù)的數(shù)據(jù)才合理,如何解決?
          模型標簽的定義解決的就是從無到有的問題。建立模型,計算用戶相應(yīng)屬性匹配度?,F(xiàn)實中,事實標簽也存在數(shù)據(jù)缺失情況。
          比如用戶性別未知,但是可以根據(jù)用戶瀏覽商品,購買商品的歷史行為來計算性別偏好度。當用戶購買的女性化妝品和內(nèi)衣較多,偏好值趨近于性別女,即可以推斷用戶性別為女。
          模型計算規(guī)則的開放解決的是標簽靈活配置的問題。運營人員能夠根據(jù)自己的需求,靈活更改標簽實例的定義規(guī)則。比如圖表中支付頻度實例的規(guī)則定義,可以做到:
          • 時間的開放。支持時間任意選擇:昨天,前天,近x天,自定義某段時間等等
          • 支付筆數(shù)的開放。大于,等于,小于某個值,或者在某兩個值區(qū)間
          標簽的組合解決就是標簽擴展的問題。除了原有屬性的規(guī)則定義,還可以使用對多個標簽進行組合,創(chuàng)建新的復(fù)合型標簽。比如定義用戶的消費能力等級。
          標簽最終呈現(xiàn)的形態(tài)要滿足兩個需求:
          • 標簽的最小顆粒度要觸達到具體業(yè)務(wù)事實數(shù)據(jù),同時支持對應(yīng)標簽實例的規(guī)則自定義
          • 不同的標簽可以相互自由組合為新的標簽,同時支持標簽間的關(guān)系,權(quán)重自定義


          作者:龔旭東
          來源:https://zhuanlan.zhihu.com/p/103129589

          推薦閱讀:

          世界的真實格局分析,地球人類社會底層運行原理

          企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案

          論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

          企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!

          【中臺實踐】華為大數(shù)據(jù)中臺架構(gòu)分享.pdf

          華為的數(shù)字化轉(zhuǎn)型方法論

          華為如何實施數(shù)字化轉(zhuǎn)型(附PPT)

          超詳細280頁Docker實戰(zhàn)文檔!開放下載

          華為大數(shù)據(jù)解決方案(PPT)

          瀏覽 31
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  女人黄色A级毛片 | 国产口爆 | 伊人无码在线 | 开心色色网 | 欧美色址|