<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          你管這玩意兒叫 ID-Mapping ?

          共 3253字,需瀏覽 7分鐘

           ·

          2021-04-12 11:50

          這是彭文華的第153篇原創(chuàng)

          網(wǎng)上  ID Mapping  的技術(shù)文章不多,我正好經(jīng)歷過傳統(tǒng)數(shù)據(jù)清洗和互聯(lián)網(wǎng)  ID Mapping  兩種場景,今天就把具體方法總結(jié)分享一下。歡迎大家加我微信:shirenpengwh ,一起探討大數(shù)據(jù)相關(guān)技術(shù)。每天一篇原創(chuàng),分享給大家,我們一起學(xué)習(xí),共同進(jìn)步。




          為啥要做ID Mapping?



          其實(shí)技術(shù)都是為了解決實(shí)際業(yè)務(wù)問題的。如果沒有數(shù)據(jù)孤島的問題,也就不會(huì)有這波瀾壯闊的數(shù)字技術(shù)發(fā)展和改革。


          在 10 多年前的時(shí)候,當(dāng)時(shí)IT界都還在做“四庫十二金”的項(xiàng)目。我就接了這么一個(gè)活,就是把一個(gè)地區(qū)的所有地址給弄干凈。這可就費(fèi)勁了,因?yàn)橥粋€(gè)地址有 N 多種寫法,比如說“大褲衩”,全稱叫“中央電視臺(tái)總部大樓”,門牌號(hào)是“北京市朝陽區(qū)東三環(huán)中路32號(hào)”,也有別稱叫“中央電視臺(tái)新址”,而且還有具體經(jīng)緯度。


          這么亂的情況,一不小心就給弄錯(cuò)了。我們當(dāng)時(shí)接的項(xiàng)目就是把這亂七八糟的地址給統(tǒng)一了,給地理信息庫提供基礎(chǔ)數(shù)據(jù)。這上那弄去啊?太費(fèi)勁了好么!


          我們當(dāng)時(shí)是怎么弄的呢?說來也很簡單,就是比對(duì)。寫規(guī)則比對(duì),簡單規(guī)則對(duì)不上,就用復(fù)雜規(guī)則對(duì),復(fù)雜規(guī)則還對(duì)不上,就肉眼雷達(dá)看。先對(duì)大廈、門牌號(hào)啥的做清洗,把錯(cuò)別字等都清洗好。然后以相對(duì)比較精準(zhǔn)的數(shù)據(jù)源為準(zhǔn),匹配一波,相同的先打上標(biāo)記。然后把類似的也放一邊,最后把都匹配不上的放一邊,最后把經(jīng)緯度也加上一起看。最后再人工肉眼雷達(dá)過兩遍,最后剩下的就不管了。


          這太痛苦了!不過我那時(shí)候技術(shù)不行,不知道用高技術(shù)。百度這邊就用圖數(shù)據(jù)庫解決這個(gè)問題,現(xiàn)在在百度上搜索啥都給你弄出來:

          在互聯(lián)網(wǎng)場景中,這種例子到處都是。數(shù)據(jù)中臺(tái)盛行之前,在 DSP (互聯(lián)網(wǎng)廣告投放平臺(tái))中就有 ID Mapping 的應(yīng)用場景。他們必須要識(shí)別在不同端(家里電腦、公司電腦)登錄的同一個(gè)用戶。他們拿不到很多詳細(xì)的數(shù)據(jù),只能靠瀏覽器的 Cookie 數(shù)據(jù)來識(shí)別,所以 DSP 系統(tǒng)中的 ID Mapping 是基于 cookie 來做的,同一個(gè)客戶,在不同端登錄的時(shí)候,相同的 cookie 在 DMP (數(shù)據(jù)管理平臺(tái))識(shí)別成為同一個(gè)客戶。


          但是這里還有一個(gè)問題,就是 cookie 只能隸屬于同一個(gè)域名,也就是說你訪問郵箱的 cookie ,與百度廣告聯(lián)盟的 cookie 并不是同一個(gè),所以在網(wǎng)站和DSP之間,也要做 ID Mapping 。他們通過這么 Mapping 之后,就能知道你在那些網(wǎng)站上登錄,都看了些啥東西,然后再給你推薦相關(guān)的內(nèi)容。

          這就有了你在百度上搜索了“養(yǎng)生”,到購物網(wǎng)站上就會(huì)給你推薦“枸杞”一樣。


          而現(xiàn)在,由于我們的系統(tǒng)越來越復(fù)雜,對(duì)客戶的價(jià)值發(fā)現(xiàn)要求越來越高,我們在普通的場景中也有類似的需求。比如我們的交易平臺(tái)上的用戶交易信息和 ERP 中有可能只是通過訂單關(guān)聯(lián),兩遍的系統(tǒng)中的用戶根本就是兩碼事,另外,我們 CRM 中的客戶信息又是獨(dú)立的。交易平臺(tái)、 ERP 、 CRM 中的用戶根本都是相互獨(dú)立的,我們沒法掌握與客戶接觸的全貌,也就沒法精準(zhǔn)的識(shí)別客戶的價(jià)值。


          而阿里當(dāng)時(shí)遇到的情況比我們更復(fù)雜,它不僅是各個(gè)系統(tǒng)之間的數(shù)據(jù)孤島現(xiàn)象嚴(yán)重,更糟糕的是各個(gè)業(yè)務(wù)線各自一套。這可就要了命了。所以當(dāng)時(shí)阿里就利用 DSP 中的 ID Mapping 邏輯,對(duì)所有數(shù)據(jù)進(jìn)行了徹底的貫通。這就是阿里數(shù)據(jù)中臺(tái)的 One ID 基礎(chǔ)。




          ID Mapping的核心技術(shù)



          ID Mapping 有幾個(gè)場景:1、多端數(shù)據(jù)的識(shí)別;2、多源數(shù)據(jù)的打通。這兩種情況的處理方式基本是一樣的。先舉一個(gè)例子:老王在商城PC端瀏覽商品,在手機(jī)端下單,后臺(tái)自動(dòng)生成訂單,交給ERP進(jìn)行后續(xù)的訂單、物流處理。后來老王有點(diǎn)不耐煩,給供應(yīng)鏈金融客服打電話咨詢。那么老王的數(shù)據(jù)如下:

          (注:大多數(shù)情況下網(wǎng)頁端和手機(jī)端的 UUID 是一樣的,這只是一個(gè)例子,理解大意就行)

          這種情況,我們用寫 SQL 的方式不是那么好使,因?yàn)殛P(guān)聯(lián)情況太多了。而且這是一個(gè)個(gè)例,你要讓所有數(shù)據(jù)都直接打通,這可不好弄啊。

          你非要寫 SQL 也能行,但是這規(guī)則可就復(fù)雜的多了,而且對(duì)系統(tǒng)的要求也非常高。而且,你還得考慮在某端偶爾登錄一次的情況。這就更蒙圈了好么?在落地的時(shí)候你會(huì)遇到一堆的問題。


          現(xiàn)在大數(shù)據(jù)環(huán)境了,技術(shù)也發(fā)展的很快,當(dāng)然不能用我之前做數(shù)據(jù)清洗的方式那么弄,寫 SQL 就顯得太傻了。之前我就介紹過,百度用的是圖數(shù)據(jù)庫的方式解決的。圖計(jì)算的邏輯就是把數(shù)據(jù)抽象成“點(diǎn)”,然后用圖計(jì)算天然的“連接”特效,實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)識(shí)別和打通。

          你看,其實(shí)我們要做的,就是把這幾個(gè)數(shù)據(jù)做一個(gè)打通,類似于這樣:

          你看這個(gè)圖,既沒有方向,也可能不能形成“環(huán)”狀。這就是一個(gè)無向連通圖。這么著一連,這些信息就能對(duì)上了。

          你現(xiàn)在想寫,寫 SQL 是不是非常難?但是用圖計(jì)算就非常簡單了。把數(shù)據(jù)處理成圖數(shù)據(jù)庫需要的格式,然后用圖計(jì)算就很容易得到我們要的結(jié)果。而且,我們還能對(duì)“邊”設(shè)定閾值,把用戶在打印室等臨時(shí)登錄場景給去掉,過濾噪音,是不是非常好用?

          所以呢, ID Mapping 的過程基本是以下幾步:

          1、各源/端的要素識(shí)別,就是能夠識(shí)別用戶信息的各個(gè)要素,原始 ID 也是有用的;

          2、各自抽象和組裝成“點(diǎn)”的數(shù)據(jù)集,設(shè)置邊閾值,過濾弱連接;

          3、構(gòu)建一個(gè)圖模型,用連通子圖算法求得那些ID標(biāo)識(shí)屬于同一個(gè)對(duì)象;

          4、得到結(jié)果集,分配一個(gè)新的 ID ;

          5、去重、合并數(shù)據(jù),生成最終結(jié)果;

          6、循環(huán) 3-5 環(huán)節(jié),同時(shí)在3環(huán)節(jié)使用已有結(jié)果集,已有 id 則沿用老 ID 。

          最后,就生成一張 id 映射字典,大概的意思就是:

          就這樣,孤立的系統(tǒng)數(shù)據(jù)就算是從 ID 層面打通了,我們基于這個(gè)字典我們就能做更多事情了,比如更全面的畫一個(gè)用戶畫像

          數(shù)據(jù)我們也能存好,怎么放都行,最好是扔ES等查詢速度快的數(shù)據(jù)庫里,對(duì)外提供 One ID 的查詢服務(wù)。

          以上就是ID-Mapping的核心技術(shù)了。在實(shí)際落地的時(shí)候,你還會(huì)遇到各種各樣的問題,比如遇到多對(duì)多的情況怎么辦?之前缺少要素匹配不上,但是后來用戶增加了信息,又匹配上了咋辦?結(jié)果數(shù)據(jù)存成什么樣比較好用?放在那里比較好?要不要建一個(gè)DV模型方便找數(shù)據(jù)?那是工程建設(shè)中需要考慮的問題。這就得完全靠實(shí)踐出真知了。




          總結(jié)



          One ID的核心價(jià)值是打通數(shù)據(jù)孤島,把不同時(shí)期孤立建設(shè)的系統(tǒng),用統(tǒng)一的ID串聯(lián)起來。One ID功能就像是在修橋梁,把各個(gè)數(shù)據(jù)孤島貫通之后,這些孤島就連成一片。


          數(shù)據(jù)孤島被打破之后,我們就能更全面、更完整的了解我們的用戶、產(chǎn)品、商家,能夠更加精準(zhǔn)的評(píng)價(jià)他們的價(jià)值,進(jìn)行進(jìn)一步的價(jià)值發(fā)現(xiàn),為精細(xì)化運(yùn)營夯實(shí)數(shù)據(jù)基礎(chǔ)。


          One ID的核心技術(shù)是ID-Mapping,其原理是將各系統(tǒng)的關(guān)鍵要素抽象成圖計(jì)算用的“點(diǎn)”和“邊”,用圖計(jì)算算法很輕易的判定同一個(gè)“對(duì)象”,從而構(gòu)建一個(gè)個(gè)無向連通圖,生成ID映射字典。這個(gè)ID映射字典就是一座座通往各個(gè)數(shù)據(jù)孤島的橋梁。我們通過這些橋梁,可以把相同“對(duì)象”在不同孤島中的數(shù)據(jù)串聯(lián)起來。這樣,我們就掌控了全局,而非局部。


          歡迎大家加我微信:shirenpengwh ,一起探討大數(shù)據(jù)相關(guān)技術(shù)。每天一篇原創(chuàng),分享給大家,我們一起學(xué)習(xí),共同進(jìn)步。


          配合以下文章享受更佳







          熱文 | 如何搭建一個(gè)數(shù)據(jù)分析體系


          下載 | 大數(shù)據(jù)職業(yè)發(fā)展體系全解


          干貨 | 什么才叫做懂業(yè)務(wù)?分析的5個(gè)層次


          思考 | 為什么說你的運(yùn)營團(tuán)隊(duì)一定要有一名女生?


          干貨 | 月薪3000和30000的數(shù)據(jù)分析師差在哪?



          我需要你的轉(zhuǎn)發(fā),小小的滿足一下我的虛榮心

          瀏覽 46
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  av成人电影先锋 A片视频免费播放 | AV一区波多野结衣 | 大香蕉a√ | 操欧美逼| daxiangjiaojiujiu |