如果從用戶畫像實(shí)現(xiàn)角度看數(shù)據(jù)隱私問題,是怎樣的? | 萬向區(qū)塊鏈行業(yè)研究
前言:
萬向區(qū)塊鏈董事長兼總經(jīng)理肖風(fēng)博士曾說過,不管是元宇宙、區(qū)塊鏈還是Web3.0,本質(zhì)其實(shí)都是講同一件事,就是人類社會在數(shù)字時代里的去中心化趨勢。因此,無論在元宇宙里,還是Web3.0時代,個人數(shù)據(jù)成了個人資產(chǎn),而個人數(shù)據(jù)隱私問題也成了“新世界”里的核心問題。
本篇將從“用戶畫像”的角度來探討數(shù)據(jù)隱私問題,希望能對各位思考元宇宙或Web3.0的隱私安全保護(hù),提供一個思路。
本文作者:萬向區(qū)塊鏈?zhǔn)紫?jīng)濟(jì)學(xué)家辦公室 王普玉
本文審核:萬向區(qū)塊鏈?zhǔn)紫?jīng)濟(jì)學(xué)家 鄒傳偉
什么是用戶畫像?
用戶畫像最早由交互設(shè)計之父Alan Cooper提出,圍繞四個要素:人物、時間、地點(diǎn)和事件將用戶的信息標(biāo)簽化(如圖1所示),再根據(jù)標(biāo)簽有針對性地收集用戶社會屬性、消費(fèi)習(xí)慣、偏好特征等各個維度數(shù)據(jù),并對這些特征進(jìn)行分析、統(tǒng)計,挖掘潛在價值信息,從而抽象出用戶的信息全貌。

圖1:個人信息四要素
用戶畫像是一把雙刃劍,方便了用戶的生活,但同時又侵犯了用戶的個人隱私。例如,當(dāng)用戶使用支付寶掃描二維碼完成一筆交易支付,大數(shù)據(jù)分析工具會捕捉用戶的消費(fèi)金額、地點(diǎn)、時間等行為數(shù)據(jù),而隨著數(shù)據(jù)標(biāo)簽的積累和數(shù)據(jù)量的增加,實(shí)現(xiàn)個人信息四要素的關(guān)聯(lián),形成一副完整的用戶畫像,平臺能夠?qū)τ脩粜袨檫M(jìn)行分析,并實(shí)現(xiàn)精準(zhǔn)營銷。
用戶畫像標(biāo)簽是怎么設(shè)計的?
1
標(biāo)簽框架
市場目前有四種標(biāo)簽框架,分別是:
(1)基于營銷觸點(diǎn)的用戶標(biāo)簽體系;識別用戶的付費(fèi)流程和付費(fèi)意愿階段,為營銷提供明確的時機(jī),例如阿里系的標(biāo)簽框架AIPL,將用戶對品牌的認(rèn)知階段分為感知、有興趣、購買和忠誠四個階段,再根據(jù)四個階段的營銷動作制定細(xì)分標(biāo)簽。
(2)基于增長漏斗的AARRR模型;此模型又稱海盜模型,由美國著名風(fēng)險投資機(jī)構(gòu)創(chuàng)始人戴夫.麥克盧爾提出,由Acquisition、Activation、Retention、Revenue、Refer(拉新、促活、留存、創(chuàng)收和分享)五個單詞首字母拼寫組成,識別用戶所處的增長狀態(tài),對不同生命周期的用戶執(zhí)行不同的增長策略。廣告主利用該模型,可以有針對性地對每個模塊客戶實(shí)施區(qū)別化的營銷策略,提升轉(zhuǎn)化率。
(3)基于用戶價值的分層模型;比如RFM模型、ARGO模型,還有用戶忠誠度和用戶生命周期模型等。其中RFM模型被廣泛應(yīng)用于傳統(tǒng)銷售行業(yè)。RFM分別代表Recency最近一次消費(fèi)、Frequency消費(fèi)頻次和Monetary消費(fèi)金額。將每個維度劃分為高、中、低三種情況,利用重要(價值、發(fā)展、保持、挽留)和一般(價值、發(fā)展、保持、挽留)要素8個要素構(gòu)建出四個象限,直觀的將用戶劃分為8個不同層次,識別用戶的價值做用戶分層,對不同價值分層的用戶執(zhí)行不同的運(yùn)營策略。
(4)基于用戶偏好的模型;基于用戶對產(chǎn)品的功能或商品偏好做區(qū)分,提供營銷人員信息去進(jìn)行個性化服務(wù),如房產(chǎn)領(lǐng)域的購房目的、區(qū)域位置、價格等。
2
標(biāo)簽的設(shè)計與應(yīng)用
以典型的電商業(yè)務(wù)為例介紹標(biāo)簽的設(shè)計流程,總共三步,包括業(yè)務(wù)流程梳理,標(biāo)簽設(shè)計的商業(yè)目標(biāo)確定,以及標(biāo)簽的設(shè)計。
(1)業(yè)務(wù)流程
業(yè)務(wù)流程漏斗包括啟動APP、注冊登錄、瀏覽活躍、深度行為、付費(fèi)和重復(fù)付費(fèi)、到最后的沉默流失。如圖2所示,根據(jù)業(yè)務(wù)流程梳理出每一步的考察維度。再根據(jù)用戶在這方面的行為,去構(gòu)建用戶偏好的標(biāo)簽。

圖2:根據(jù)業(yè)務(wù)流程的用戶畫像
(2)商業(yè)目標(biāo)
基于不同的商業(yè)目的,企業(yè)會嘗試從不同維度構(gòu)建標(biāo)簽,其目的大多一致,即通過精細(xì)化運(yùn)營整體的交易金額。根據(jù)不同的商業(yè)目的,企業(yè)會對業(yè)務(wù)流程進(jìn)行拆解。如交易金額可以拆分為新用戶的交易額和老用戶的交易額;達(dá)成交易的過程又可拆分為新增啟動、注冊、瀏覽詳情、深度行為、最后到付費(fèi)。對拆解出來的每一環(huán)節(jié)使用不同策略去提高交易金額,如圖3所示。

圖3:用戶畫像商業(yè)目標(biāo)實(shí)現(xiàn)方法
(3)標(biāo)簽設(shè)計
用數(shù)據(jù)計算邏輯來看,只有當(dāng)輸入值滿足限制條件,最終結(jié)果才能落到一個期望的范圍內(nèi)。因此,商業(yè)交易中,期望結(jié)果如圖3中位于底層的不同目標(biāo),而標(biāo)簽則是這些不同的輸入值,企業(yè)試圖用大數(shù)據(jù)分析得到這些輸入值的合理范圍,以得到期望結(jié)果,于是就出現(xiàn)了如圖4所示的模型。

圖4:基于商業(yè)價值的用戶畫像標(biāo)簽設(shè)計
標(biāo)簽類型根據(jù)打標(biāo)簽的方式又分為3種,分別是統(tǒng)計類標(biāo)簽、規(guī)則類標(biāo)簽和機(jī)器學(xué)習(xí)算法類標(biāo)簽。
例如小張在社交APP資料顯示男性,和網(wǎng)友見面時對自己的描述是“濃眉大眼臉型方正,穿著很有設(shè)計感的裙子”;小張在結(jié)賬時使用刷臉支付,沒有獲得當(dāng)天的女性九折優(yōu)惠。因此,如何判斷小張的性別?
① 統(tǒng)計標(biāo)簽
小張在社交APP填寫的為男性,所以我們認(rèn)為他是男性,這類基于確切資料確定的標(biāo)簽,叫做統(tǒng)計標(biāo)簽;對于用戶而言,其性別、年齡、城市、星座、近7日活躍時長、近7日活躍天數(shù)、近7日活躍次數(shù)等字段可以從用戶注冊數(shù)據(jù)、用戶訪問、消費(fèi)數(shù)據(jù)中統(tǒng)計得出。而該類標(biāo)簽構(gòu)成了用戶畫像的基礎(chǔ)。
② 規(guī)則標(biāo)簽
小張穿的是一件很有設(shè)計感的裙子,按照人們的慣性思維,張三為女性。這個判斷是基于人們設(shè)定的規(guī)則,只要有人穿裙子就是女性,這類標(biāo)簽叫做規(guī)則標(biāo)簽,即基于用戶行為確定的規(guī)則。在實(shí)際開發(fā)畫像的過程中,由于運(yùn)營人員對業(yè)務(wù)更為熟悉,而數(shù)據(jù)人員對數(shù)據(jù)的結(jié)構(gòu)、分布、特征更為熟悉,因此歸類標(biāo)簽的規(guī)則由運(yùn)營人員和數(shù)據(jù)人員共同協(xié)商確定。根據(jù)不同標(biāo)簽所獲取用戶數(shù)據(jù)的準(zhǔn)確性,標(biāo)簽的規(guī)則會不定時進(jìn)行調(diào)整。
③ 機(jī)器學(xué)習(xí)算法標(biāo)簽
攝像頭結(jié)合基于多種特征的算法對小張是女性的概率進(jìn)行判斷,由于小張長相很陽剛,算法判定其為男性,因此,小張刷臉支付沒有獲得活動女性優(yōu)惠。該類標(biāo)簽通過機(jī)器學(xué)習(xí)挖掘產(chǎn)生,用于對用戶的某些屬性或某些行為進(jìn)行預(yù)測判斷。
對于目標(biāo)人群有明確的行為數(shù)據(jù),企業(yè)會根據(jù)用戶偏好標(biāo)簽收集數(shù)據(jù);但如果目標(biāo)人群的行為數(shù)據(jù)較少,比如新用戶和沉默用戶,一般從他們所處的生命周期標(biāo)簽出發(fā),去極化促進(jìn)轉(zhuǎn)化和召回的策略。
數(shù)據(jù)來源
1
數(shù)據(jù)獲取途徑
用戶畫像是一個復(fù)雜的過程,包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分類及數(shù)據(jù)存儲等,如圖5所示,展示了用戶畫像的具體架構(gòu),我們將對其最底層的用戶數(shù)據(jù)采集途徑進(jìn)行詳細(xì)分析。

圖5:用戶畫像數(shù)據(jù)倉庫架構(gòu)
從圖5中可以看到,用戶畫像底層數(shù)據(jù)的主要獲取途徑包括兩大部分:內(nèi)部系統(tǒng)數(shù)據(jù)及外部數(shù)據(jù),而內(nèi)部系統(tǒng)數(shù)據(jù)又包括業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)和埋點(diǎn)數(shù)據(jù)。
(1)內(nèi)部數(shù)據(jù)
① 業(yè)務(wù)數(shù)據(jù)
包括用戶信息表、商品訂單表、商品評論表、搜索日志表、用戶收藏表、購物車信息表。
用戶信息表包括了用戶編碼、用戶姓名、用戶狀態(tài)(未注冊、已注冊、已注銷)、郵箱編碼、用戶生日、性別(自然性別、購物性別)、電話號碼、是否有圖像、創(chuàng)建時間、注冊日期、歸屬省、歸屬市、詳細(xì)地址等等;
商品訂單表包括訂單來源標(biāo)識(App, Web,H5,其他等)、用戶編碼、用戶姓名、訂單號、商品編碼、商品名稱、訂單生成時間、訂單日期、訂單備注、訂單狀態(tài)(待支付、已完成、已取消、已退款、支付失敗等)、訂單狀態(tài)時間、訂單金額、付款賬戶、付款方式等等;
商品評論表存放用戶對商品的評論信息,主要字段包括用戶id、用戶姓名、評論內(nèi)容、評論圖片、評論狀態(tài)(待審核、已審核、已屏蔽)、訂單id、創(chuàng)建時間、創(chuàng)建日期、評論用戶IP、更新時間等;
用戶收藏表記錄用戶在平臺上收藏商品的數(shù)據(jù),字段主要包括用戶id、收藏日期、收藏時間、商品id、商品名稱、收藏狀態(tài)(收藏、取消收藏)、修改日期、修改時間等。
購物車信息表記錄用戶將商品加入購物車的數(shù)據(jù),主要字段包括:用戶id,商品id,商品名稱、商品數(shù)量、創(chuàng)建日期、創(chuàng)建時間、圖書狀態(tài)、修改日期、修改時間等。
② 日志數(shù)據(jù)
訪問日志表存放用戶訪問App的相關(guān)信息及用戶定位數(shù)據(jù)的服務(wù)(LBS),通過在客戶端埋點(diǎn),從日志數(shù)據(jù)中解析出來。主要字段包括設(shè)備登錄名、用戶id、設(shè)備id、訪問時間、上報時間(終端記錄用戶點(diǎn)擊按鈕時間)、用戶所在省份、用戶所在城市、上一個頁面url、當(dāng)前頁面url、操作系統(tǒng)、登錄日期、經(jīng)度、緯度等。
搜索日志表存放用戶在APP端搜索相關(guān)的日志數(shù)據(jù),主要字段包括設(shè)備登錄名、用戶id、設(shè)備id、搜索id、搜索日期、搜索時間、用戶搜索的關(guān)鍵詞、標(biāo)簽內(nèi)容、每個訪問的隨機(jī)數(shù)等。
③ 埋點(diǎn)數(shù)據(jù)
埋點(diǎn)日志表是存放用戶訪問App或網(wǎng)頁,用鼠標(biāo)或觸屏點(diǎn)擊頁面時留下的打點(diǎn)記錄。通過客戶端做埋點(diǎn),做用戶頁面統(tǒng)計及統(tǒng)計操作行為監(jiān)控,主要字段同日志數(shù)據(jù)。
埋點(diǎn)是企業(yè)為了盡可能完整的收集可以體現(xiàn)用戶使用場景和真實(shí)需求的行為數(shù)據(jù),也是圍繞著圖1中的四要素,但數(shù)據(jù)框架通常是4W(who\when\where\what)+1H(how),分別對應(yīng)著四要素中的人物(who)、時間(time)、地點(diǎn)(where)、事件(what + how)。
who
用來分析誰完成了這個行為,使用唯一的用戶ID將行為與用戶關(guān)聯(lián)起來。常用的數(shù)據(jù)包括用戶id、手機(jī)號、身份證、設(shè)備或應(yīng)用識別碼。
where
定位用戶在什么地方完成該行為,常用的數(shù)據(jù)包括IP(web、手機(jī))、GPS(手機(jī))、自主填寫位置(大眾點(diǎn)評、餓了嗎、美團(tuán)外賣等)。
when
定位用戶什么時間完成該行為,常用數(shù)據(jù)是時間戳和當(dāng)?shù)貢r間。
what
定位用戶當(dāng)前行為,為了能夠更精細(xì)化管理,記錄的信息越來越詳細(xì),具體指標(biāo)包括內(nèi)部系統(tǒng)數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù),通過埋點(diǎn)的方式來獲取。
how
獲取用戶發(fā)生發(fā)生行為時周邊環(huán)境、手段、設(shè)備等,盡可能在數(shù)字世界里還原用戶所處環(huán)境,常用數(shù)據(jù)包括操作系統(tǒng)、設(shè)備版本、設(shè)備型號、網(wǎng)絡(luò)環(huán)境(WIFI、5G)、設(shè)備版本(用戶使用設(shè)備的版本號)、瀏覽器、上級頁面等。
當(dāng)用戶產(chǎn)生某個行為,觸發(fā)埋點(diǎn)后,將4W+1H相關(guān)數(shù)據(jù)傳輸?shù)胶笈_進(jìn)行分析,以每天、每小時或者一定數(shù)據(jù)限值的固定方式上報。有些企業(yè)只會收集與自身業(yè)務(wù)有關(guān)的用戶畫像標(biāo)簽數(shù)據(jù),而大多企業(yè)會過度收集信息,即大量與自身業(yè)務(wù)無關(guān)數(shù)據(jù)。例如用戶在圖片管理軟件上傳了一張圖片,軟件會收集到設(shè)備信息、用戶信息,圖片如果是自拍,用戶畫像的具體外貌也將被綁定,而照片中建筑、門牌號、店鋪名都有可能暴露用戶的身份和位置,這些信息均有助于企業(yè)了解用戶的財務(wù)狀況、生活習(xí)慣等等信息。
(2)外部數(shù)據(jù)
外部數(shù)據(jù)包括多項(xiàng)數(shù)據(jù),主要用于彌補(bǔ)內(nèi)部用戶標(biāo)簽不足或數(shù)據(jù)量不足問題,通過結(jié)合外部數(shù)據(jù)獲取一個更加全面的用戶畫像。主要外部渠道包括:互聯(lián)網(wǎng)公開數(shù)據(jù)、付費(fèi)數(shù)據(jù)(數(shù)據(jù)提供商)、網(wǎng)絡(luò)采集數(shù)據(jù)、通過人脈獲取數(shù)據(jù)、百度指數(shù)和站長工具等檢測數(shù)據(jù)。下面介紹幾個主要渠道:
① 互聯(lián)網(wǎng)公開數(shù)據(jù)
公開數(shù)據(jù)主要是圍繞全球、國家、地方及企業(yè)宏觀層面的統(tǒng)計數(shù)據(jù),不會對用戶畫像有直接作用,但能夠提供參考。例如,中國國家統(tǒng)計局(http://data.stats.gov.cn/index.htm),包括了我國經(jīng)濟(jì)民生等多個方面的數(shù)據(jù);CEIC(www.ceicdata.com/zh-hans),擁有超過128個國家的經(jīng)濟(jì)數(shù)據(jù),能夠精確查找GDP、CPI、進(jìn)口、出口、外資直接投資、零售、銷售、以及國際利率等深度數(shù)據(jù);還有包括Wind、搜數(shù)網(wǎng)、中國統(tǒng)計信息網(wǎng)、亞馬遜公開數(shù)據(jù)集、figshare、github等等。
② 付費(fèi)數(shù)據(jù)
大數(shù)據(jù)交易中心
2015年各地開始興建大數(shù)據(jù)交易中心,截至2019年底,已有30家大型數(shù)據(jù)交易所(中心),我國大數(shù)據(jù)的交易模式可大致劃分為四種,政府牽頭或背書的交易所(中心)、行業(yè)機(jī)構(gòu)為主的行業(yè)數(shù)據(jù)交易模式、大型互聯(lián)網(wǎng)公司及IT廠商主導(dǎo)的數(shù)據(jù)交易平臺、垂直數(shù)據(jù)服務(wù)商主導(dǎo)的市場化數(shù)據(jù)交易模式。
企業(yè)間數(shù)據(jù)共享
類似信貸企業(yè)很難通過自有數(shù)據(jù)完成用戶畫像,通常會與行業(yè)合作伙伴共享數(shù)據(jù)。
其他
網(wǎng)絡(luò)攻擊者通過各種漏洞,布點(diǎn)SDK,獲取所需數(shù)據(jù),并在地下交易市場進(jìn)行出售,形成了包括黑客、多級料商(數(shù)據(jù)中間商)、買家一條完整的黑色產(chǎn)業(yè)鏈,通常分為四級:第一級是黑客或公司內(nèi)部員工盜取用戶個人數(shù)據(jù);第二級盜取的用戶信息售賣至料商;第三級是料商不斷發(fā)展代理商,將數(shù)據(jù)進(jìn)行倒賣;第四級是信息使用者,獲取數(shù)據(jù)后,進(jìn)行用戶畫像補(bǔ)充、電話營銷或?qū)嵤╇娦旁p騙。如某料商在向記者采訪時表示:“個人普通信息比如電話、微信、QQ號等,平均拿貨成本每條信息0.4元,單條銷售價格0.7-0.8元,每個月流水達(dá)到40-50萬元,金融、教育、醫(yī)美等行業(yè)都做,市場需求量很大。”
2
數(shù)據(jù)采集技術(shù)
互聯(lián)網(wǎng)時代,為了追蹤、分析與說服消費(fèi)者,廣告商已經(jīng)開發(fā)了很多便捷與成熟的營銷跟蹤技術(shù),在線廣告營銷伴隨著每一個上網(wǎng)瀏覽網(wǎng)頁的用戶。廣告行業(yè)借助不同的技術(shù),如Cookies、Flash cookies、Beacons、瀏覽器指紋,對用戶行為進(jìn)行追蹤。
① Cookies
Cookies是網(wǎng)站服務(wù)器在用戶的內(nèi)容或硬盤中保存的用來記錄用戶瀏覽的網(wǎng)頁地址、網(wǎng)頁停留時間、網(wǎng)頁上鍵入的用戶名、密碼、用戶瀏覽習(xí)慣等方面的小型瀏覽文件。它并非由本機(jī)生成,通常在用戶瀏覽網(wǎng)頁時,從所瀏覽的網(wǎng)站發(fā)送過來,用來檢測用戶在做什么的小型數(shù)據(jù)包;它不僅可以對用戶行為進(jìn)行追蹤,還可以為用戶推薦曾經(jīng)訪問的網(wǎng)址,省去用戶重新輸入網(wǎng)址的麻煩,用戶不必重新輸入用戶名和密碼,就能實(shí)現(xiàn)登錄。此項(xiàng)技術(shù)引發(fā)的最大問題是在用戶完全不知情的背景下,對用戶行為進(jìn)行跟蹤、記錄,這往往會引發(fā)第三方(如行為廣告商)的接入。廣告商在采集到Cookies數(shù)據(jù)后,會有針對性地通過行為營銷的方式向用戶投放其可能感興趣的廣告。目前主要的應(yīng)對方法是使用瀏覽器的無痕模式,或定期對瀏覽器Cookies清理,減少數(shù)據(jù)泄露。
② Flash cookies
隨著技術(shù)的發(fā)展,開發(fā)人員發(fā)現(xiàn)了更好的方法——Flash cookies。傳統(tǒng)Http下的cookies不穩(wěn)定,用戶可能會隨著清除掉瀏覽器中的Http Cookies,或者在瀏覽器選項(xiàng)中,手動將它設(shè)置為禁用模式而避免數(shù)據(jù)被采集。Flash cookies則可以對用戶刪除的Http cookies進(jìn)行重寫,獲得重生,這樣原來保存的數(shù)據(jù)在刪除后又重新呈現(xiàn)在分析者面前。而傳統(tǒng)禁用或清除瀏覽器中Cookie的方法,無法抗衡網(wǎng)站對用戶網(wǎng)上瀏覽歷史的重寫、跟蹤和記錄。
③ Web Beacons
網(wǎng)絡(luò)信標(biāo)(Web Beacons),又稱網(wǎng)頁臭蟲(Web bug),是可以暗藏在任何網(wǎng)頁元素或郵件內(nèi)的1像素大小的透明GIF或PNG圖片,常用來收集目標(biāo)電腦用戶的上網(wǎng)習(xí)慣等數(shù)據(jù),并將這些數(shù)據(jù)寫入Cookies。不同于Cookies可以被瀏覽器用戶接受或禁用,Web Beacons只以圖形交換格式(GIF)或其他文件對象的形式出現(xiàn),只能通過檢測功能發(fā)現(xiàn),最初的涉及有積極意義,如跟蹤侵犯版權(quán)的網(wǎng)站。
信標(biāo)API(Beacon API)則是Web Beacons的升級版本,它不需要使用不可見圖像或類似手段就可以達(dá)到相同目的,旨在方便Web開發(fā)人員能在用戶離開頁面時將信息(如分析或系統(tǒng)診斷數(shù)據(jù))發(fā)回Web服務(wù)器。使用Web信標(biāo)API能夠不干擾或影響網(wǎng)站導(dǎo)航來完成此種追蹤,并且對最終用戶不可見。這項(xiàng)技術(shù)在2014年后相繼引入Mozilla Firefox和Google Chrome網(wǎng)頁瀏覽器,但2021年谷歌又宣布為保護(hù)用戶隱私,已經(jīng)放棄使用追蹤個人網(wǎng)站瀏覽記錄。
④ 瀏覽器指紋
不同用戶的瀏覽器都有自己的特征,網(wǎng)站可以檢測用戶的瀏覽器版本、操作系統(tǒng)類型、安裝的瀏覽器插件、屏幕分辨率、所在時區(qū)、下載的字體及其他信息,這種通過瀏覽器對網(wǎng)站可見的配置和設(shè)置信息來追蹤Web瀏覽器的方法,稱為“瀏覽器指紋”,它如同人手上的指紋一樣,具有個體辨識度。如果要避免指紋追蹤,用戶需要禁用網(wǎng)站的JavaScript與Adobe’s Flash技術(shù)。即使電腦高手,面對指紋跟蹤技術(shù),也很難保護(hù)自己的隱私。最初瀏覽器指紋是狀態(tài)化的,需要用戶登錄賬戶才能得到有效信息;升級后的瀏覽器指紋通過不斷增加瀏覽器的特征值從而讓用戶更有區(qū)分度;到現(xiàn)在已經(jīng)基于人的行為、習(xí)慣為用戶建立特征值甚至模型,在不同設(shè)備上,沒有使用用戶登錄的情況下,僅通過瀏覽網(wǎng)頁的習(xí)慣等就可以鎖定到具體的用戶身份,這項(xiàng)技術(shù)正在研究中。目前來看指紋跟蹤很難被阻擋,只要用戶使用瀏覽器上網(wǎng),用戶的網(wǎng)上行蹤就如同公開狀態(tài)一般。
⑤ SDK
在檢測網(wǎng)站或軟件上用戶行為時,通常在網(wǎng)站或軟件上增加一些代碼,當(dāng)用戶觸發(fā)相應(yīng)的行為,進(jìn)行數(shù)據(jù)上報,也就是代碼埋點(diǎn)。這樣的代碼,在網(wǎng)站上稱為檢測代碼,在app上成為SDK(Software Development Kit)。市場上目前有一些相關(guān)工具,如GrowingIO、GA、神策等。
用戶畫像數(shù)據(jù)問題及分析
從營銷學(xué)角度來看,用戶畫像技術(shù)幫助市場供方精準(zhǔn)定位客戶,同時為客戶提供個性化服務(wù),有效提升了市場交易效率。雖然用戶畫像技術(shù)有其社會價值,但在前面兩大部分,我們對用戶畫像的標(biāo)簽框架、設(shè)計與應(yīng)用、標(biāo)簽數(shù)據(jù)來源及數(shù)據(jù)采集的相關(guān)技術(shù)進(jìn)行的詳細(xì)梳理,發(fā)現(xiàn)企業(yè)在用戶畫像過程中存在較多數(shù)據(jù)安全問題,包括數(shù)據(jù)交易渠道合規(guī)性問題、非法數(shù)據(jù)采集技術(shù)、過度收集用戶數(shù)據(jù)、用戶個人數(shù)據(jù)隱私缺乏保障機(jī)制等。
1
外部數(shù)據(jù)獲取渠道合規(guī)性問題
正常情況下,用戶提供個人數(shù)據(jù)和平臺提供個性化服務(wù)形成了一個商業(yè)閉環(huán)。但從前面分析中,為了用戶畫像,企業(yè)自有數(shù)據(jù)無法滿足標(biāo)簽數(shù)據(jù)量需求,企業(yè)通常需要從外部獲取一些數(shù)據(jù)。在數(shù)據(jù)交易中,滋生出一些自發(fā)組織的灰色市場,如圖6所示,平臺或其代理將用戶個人數(shù)據(jù)明碼標(biāo)價的形式銷售給第三方機(jī)構(gòu),出現(xiàn)了以用戶、平臺或其代理和第三方機(jī)構(gòu)為代表的商業(yè)閉環(huán),第三方機(jī)構(gòu)通過對用戶信息的分析,提供一些“個性化服務(wù)”給用戶,而這些頻繁的個性化服務(wù)廣告對用戶生活帶來一定的影響。由于數(shù)據(jù)缺乏管理,部分?jǐn)?shù)據(jù)會流入到一些非法組織手中,向用戶進(jìn)行虛假產(chǎn)品營銷及詐騙。

圖6:企業(yè)數(shù)據(jù)交易閉環(huán)圖
目前,市場上合規(guī)的數(shù)據(jù)交易渠道較少,2015年各地興建大數(shù)據(jù)交易中心,旨在促進(jìn)數(shù)據(jù)合法交易及流通,服務(wù)市場經(jīng)濟(jì)。但近幾年數(shù)據(jù)表明并未達(dá)到市場預(yù)期,且與初期設(shè)想有較大差距,主要問題在于數(shù)據(jù)確權(quán)、數(shù)據(jù)定價、數(shù)據(jù)交易等數(shù)據(jù)要素市場化、流通機(jī)制設(shè)計等方面存在很多空白,容易觸及法律紅線。根據(jù)《網(wǎng)絡(luò)安全法》第四十二條規(guī)定:“網(wǎng)絡(luò)運(yùn)營者不得泄露、篡改、毀損其收集的個人信息,不得向他人提供個人信息。但是,經(jīng)過處理無法識別特定個人且不能復(fù)原的除外?!倍覀儚那懊娣治鰞?nèi)容可以發(fā)現(xiàn),用戶畫像的前提是要識別個人身份,否則無法從技術(shù)上實(shí)現(xiàn)對個人的用戶畫像。除了《網(wǎng)絡(luò)安全法》中提及要實(shí)現(xiàn)個人數(shù)據(jù)的匿名化,在數(shù)據(jù)交易和共享環(huán)節(jié)還需要獲取用戶授權(quán)同意,這將極大增加了企業(yè)數(shù)據(jù)合規(guī)成本。
因此,促進(jìn)外部數(shù)據(jù)獲取渠道合規(guī)性需要解決以下問題:
個人數(shù)據(jù)匿名化(非去標(biāo)識化),實(shí)現(xiàn)關(guān)聯(lián)要素“人物”的切斷。
在個人信息匿名化的情況下,完成用戶畫像(可用不可見);例如使用聯(lián)邦學(xué)習(xí)、多方安全計算、差分隱私等方法。
清晰的數(shù)據(jù)確權(quán)方案;
企業(yè)低成本數(shù)據(jù)使用授權(quán)方法;
建立健全的數(shù)據(jù)定價和利益分配機(jī)制。
2
防止非法數(shù)據(jù)采集方式以及數(shù)據(jù)過度采集
早期用戶數(shù)據(jù)分析是圍繞業(yè)務(wù)數(shù)據(jù),即通過過往的消費(fèi)記錄形成客戶的消費(fèi)畫像。業(yè)務(wù)數(shù)據(jù)基本能夠分析出客戶對于品牌、顏色、款式的喜好以及價格承受能力等,但這些數(shù)據(jù)不足以進(jìn)一步挖掘客戶的消費(fèi)潛力。平臺側(cè)通常需要更多的行為數(shù)據(jù),抓住客戶具有時效性的沖動需求,為此平臺方通過我們前面提到的Cookie、Flash Cookies、Beacons、瀏覽器指紋、SDK等技術(shù),在客戶不知不覺中,收集行為數(shù)據(jù)并分析數(shù)據(jù),用于用戶畫像及精準(zhǔn)營銷。行為數(shù)據(jù)的收集如圖7所示:

圖7:應(yīng)用提供商數(shù)據(jù)獲取方式
在注冊環(huán)節(jié),應(yīng)用提供商獲取用戶的基礎(chǔ)數(shù)據(jù),再通過設(shè)備唯一的IMEI(國際移動設(shè)備標(biāo)識碼)授權(quán)(局域網(wǎng)是通過Mac Address來確認(rèn)設(shè)備地址),可實(shí)現(xiàn)用戶與基礎(chǔ)數(shù)據(jù)的綁定,即幫助應(yīng)用提供商來判斷發(fā)生的數(shù)據(jù)具體來自哪個用戶。之后通過獲取更多權(quán)限,例如攝像頭、照片、通訊錄、定位、應(yīng)用列表等等功能,讀取用戶的實(shí)時行為數(shù)據(jù),而這些行為數(shù)據(jù)被應(yīng)用提供商采集,進(jìn)行詞云分析,分析用戶的性格、愛好、各種生活喜好等,對用戶進(jìn)行畫像。隨著數(shù)據(jù)的積累,在數(shù)字世界形成了一個與物理世界相映射的數(shù)字人物。這個數(shù)字人物的控制,在將來有一天通過仿真技術(shù),數(shù)據(jù)持有人能夠做到對數(shù)字人物的下一步行為的預(yù)測,同步引導(dǎo)物理世界的用戶完成他們想要的目的,這將對所有用戶是危險的一件事情。
近年來,一些手機(jī)終端公司陸續(xù)提供了一項(xiàng)設(shè)備數(shù)據(jù)保護(hù)的新技術(shù)——OAID(匿名設(shè)備標(biāo)識符),使用虛擬的ID身份替代設(shè)備原有的IMEI成為設(shè)備識別標(biāo)識。OAID通過提供隨機(jī)匿名身份,用于各種應(yīng)用的設(shè)備綁定,讓設(shè)備能夠正常運(yùn)行且讓應(yīng)用提供商無法識別具體的用戶身份。但這種模式下,仍然有以下問題:
① 未從根本解決數(shù)據(jù)安全問題
OAID雖然有效解決用戶數(shù)據(jù)無授權(quán)采集問題,即讓應(yīng)用提供商無法通過真實(shí)終端設(shè)備識別碼映射到具體的用戶行為,但該方法無法徹底解決數(shù)據(jù)安全問題,因?yàn)閼?yīng)用提供商依然可以通過應(yīng)用注冊賬戶留下的個人信息識別具體的用戶。關(guān)于注冊信息安全問題,目前的解決方法較為復(fù)雜,通常使用虛擬手機(jī)號或臨時郵箱注冊賬戶,并需要做到頻繁注冊新賬戶來迷惑應(yīng)用提供商。
② 無法避免終端提供商收集數(shù)據(jù)
OAID虛擬身份來自中心化機(jī)構(gòu),雖然通過該方法避免應(yīng)用提供商使用各種技術(shù)收集終端數(shù)據(jù),但終端提供商能夠通過OAID映射到IMEI,控制權(quán)相當(dāng)于從應(yīng)用提供商轉(zhuǎn)交到終端設(shè)備提供商手里,仍然有數(shù)據(jù)泄露風(fēng)險。
關(guān)于數(shù)據(jù)過度采集問題,用戶普遍表現(xiàn)出排斥的態(tài)度,終端服務(wù)商也通過OAID等技術(shù)防止各種應(yīng)用對用戶信息采集。但隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展,我們將迎來一個與物理世界相映射的數(shù)字世界,無法避免更多數(shù)據(jù)會從物理世界映射到數(shù)字世界。既然大勢所趨,我們需要做的不是防止數(shù)據(jù)被采集,而應(yīng)該將更多注意力放在如何保護(hù)采集到的數(shù)據(jù)安全,即用戶的每條數(shù)據(jù)被采集,只能用于同一場景下服務(wù)于本人,也就是圖5中形成平臺與用戶的閉環(huán),避免數(shù)據(jù)流向第三方機(jī)構(gòu)、非法組織等。
3
用戶個人隱私保護(hù)
用戶畫像雖然提升了交易效率以及降低了供應(yīng)成本,但用戶的隱私同時也被其他機(jī)構(gòu)或組織掌握,存在多種泄露風(fēng)險,包括:第一、企業(yè)通過第三方出售用戶數(shù)據(jù);第二、企業(yè)員工盜取數(shù)據(jù),并通過非法途徑售賣;第三、網(wǎng)絡(luò)攻擊者通過技術(shù)漏洞或盜取企業(yè)員工身份獲取系統(tǒng)中的用戶數(shù)據(jù)。目前各公司主要從道德層面承諾對數(shù)據(jù)的保護(hù),但一位知名公眾人曾在公開場合表示:中國人愿意犧牲隱私,換取便利。而央視對此的評論是:人們最害怕的不是他說了錯話,而是科技巨頭對用戶核心利益的熟視無睹,成為一種脫口而出的真心話。
在數(shù)字化時代,數(shù)據(jù)就是原油,它不僅能推動經(jīng)濟(jì)發(fā)展,還是實(shí)現(xiàn)信息技術(shù)突破的重要燃料,如果一味強(qiáng)調(diào)保護(hù)數(shù)據(jù),肯定會逐漸喪失已逐漸滲透進(jìn)我們每個人生活、每個角落的便利和無限商機(jī),不能因?yàn)橐沟粝丛杷桶押⒆右矟姵鋈?。隱私保護(hù)和經(jīng)濟(jì)發(fā)展并不是二元對立,目前的解決方案包括區(qū)塊鏈技術(shù)、數(shù)據(jù)匿名化處理、差分隱私、多方安全計算、矩陣變換等數(shù)據(jù)脫敏技術(shù),都能做到用戶數(shù)據(jù)隱私,但這些技術(shù)的建設(shè)不僅需要平臺端買單,還會影響到平臺的現(xiàn)有核心利益,因此當(dāng)前市場對該類技術(shù)推行非常緩慢。這一局面逐漸出現(xiàn)轉(zhuǎn)機(jī),比如近期滴滴打車、運(yùn)滿滿等互聯(lián)網(wǎng)平臺因?yàn)閿?shù)據(jù)采集不合規(guī)問題被叫停的事件,對市場起到了很好的警示作用。
