日韩一区二区视频观看,欧美午夜一区,乱伦AV网,人人干人人叉人人操,国产黄片久久久,草比视频网站,国产福利视频在线播放,在线观看亚洲网站视频

前言

談及用戶畫像，我想產(chǎn)品和運(yùn)營的朋友們都不會(huì)陌生，用戶畫像是用戶研究的重要輸出，它能幫助我們更好的進(jìn)行業(yè)務(wù)決策以及產(chǎn)品設(shè)計(jì)。用戶畫像落實(shí)到產(chǎn)品設(shè)計(jì)，本質(zhì)上是將數(shù)據(jù)組合成數(shù)據(jù)特征，從而形成用戶的數(shù)據(jù)模型。

構(gòu)建用戶畫像的主流方法有4種：

1、基于數(shù)據(jù)統(tǒng)計(jì)

2、基于規(guī)則定義

3、基于聚類

4、基于主題模型

前兩者是基于已有數(shù)據(jù)的構(gòu)建方法，其缺陷是無法處理數(shù)據(jù)缺失或不在規(guī)則范圍內(nèi)的用戶。而解決這一類問題，也正是機(jī)器學(xué)習(xí)存在的意義，它讓計(jì)算機(jī)像人一樣去學(xué)習(xí)處理問題，并給出答案。

本文將從構(gòu)建用戶畫像的角度和大家分享能夠運(yùn)用在其中的一些AI算法，希望能給大家提供一些價(jià)值。

用戶畫像偏向于定性，而產(chǎn)品設(shè)計(jì)是將需求從定性轉(zhuǎn)換為定量的過程，用戶畫像在量化過后我們也稱之為用戶標(biāo)簽。

一、標(biāo)簽的層級

圖1-構(gòu)建用戶畫像的三個(gè)步驟

構(gòu)建用戶標(biāo)簽我拆分了三個(gè)步驟，分別是層級、生產(chǎn)以及權(quán)重。理解標(biāo)簽的層級能夠幫助我們設(shè)計(jì)產(chǎn)品架構(gòu)，并且熟悉標(biāo)簽生產(chǎn)的方法。

圖2-標(biāo)簽的層級劃分方式

標(biāo)簽的層級有兩種劃分方式，方式1是較為常見的做法，而方式2查閱于京東的數(shù)據(jù)分析師凌靖的文章，結(jié)合兩種方式之后形成了下圖圖3。

圖3-標(biāo)簽的層級

標(biāo)簽的每一個(gè)層級，可以將其理解為對上一層標(biāo)簽的再次提煉。對照著圖3，我們試著理解這4個(gè)層級：

1、原始數(shù)據(jù)

來源于用戶的基礎(chǔ)信息、交易數(shù)據(jù)、訪問數(shù)據(jù)，如：用戶的注冊手機(jī)號(hào)碼、用戶的歷史訂單、用戶的訪問軌跡等。

2、事實(shí)標(biāo)簽

是對原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析后的初步提煉結(jié)果。

3、模型標(biāo)簽及預(yù)測標(biāo)簽

3-1、模型標(biāo)簽

由一個(gè)或多個(gè)事實(shí)標(biāo)簽組合而成，是基于模型訓(xùn)練的結(jié)果。以模型標(biāo)簽“交易偏好”為例，它是由交易商品類型、交易場景、交易來源這幾個(gè)事實(shí)標(biāo)簽組合而成的。

3-2、預(yù)測標(biāo)簽

以已有的模型標(biāo)簽數(shù)據(jù)作為特征，經(jīng)過機(jī)器學(xué)習(xí)生產(chǎn)的標(biāo)簽。由于預(yù)測標(biāo)簽會(huì)映射成為模型標(biāo)簽，所以在圖3中將2者放置于同一個(gè)層級。

4、策略標(biāo)簽

策略標(biāo)簽，則是用戶標(biāo)簽構(gòu)建的最終目的，根據(jù)目的提煉用戶，并對用戶進(jìn)行定向的營銷。

標(biāo)簽的層級，指導(dǎo)著產(chǎn)品經(jīng)理構(gòu)建用戶畫像的每個(gè)步驟。前兩個(gè)層級，我們需要對缺失的數(shù)據(jù)建立數(shù)據(jù)源，對數(shù)據(jù)進(jìn)行清洗、修復(fù)以及特征構(gòu)建等；后兩個(gè)層級，我們需要使用合適的方式生產(chǎn)標(biāo)簽。

二、標(biāo)簽的生產(chǎn)

在第一章中我們理解了標(biāo)簽的層級，這一章主要講述標(biāo)簽的生產(chǎn)過程，用戶畫像的構(gòu)建方式不同，生產(chǎn)方式也不同。

1、基于規(guī)則定義的標(biāo)簽生產(chǎn)方式

顧名思義，這種生產(chǎn)方式是根據(jù)固定的規(guī)則，通過數(shù)據(jù)查詢的結(jié)果生產(chǎn)標(biāo)簽。這里的重點(diǎn)在于如何制定規(guī)則。

從數(shù)據(jù)的變化頻次來看，可以將標(biāo)簽劃分為靜態(tài)標(biāo)簽以及動(dòng)態(tài)標(biāo)簽。靜態(tài)標(biāo)簽變化的頻次低，或者一旦確認(rèn)不做改變。而動(dòng)態(tài)標(biāo)簽變化頻繁，它會(huì)衰減也可能會(huì)消失。

以靜態(tài)標(biāo)簽和動(dòng)態(tài)標(biāo)簽為思路向下順延，我們可以劃分為基礎(chǔ)屬性以及偏好行為兩大類，如下圖圖4所示：

圖4-用戶標(biāo)簽的規(guī)則分類

這是一張比較普適的圖，在實(shí)際應(yīng)用的過程中產(chǎn)品經(jīng)理可以根據(jù)業(yè)務(wù)去定義更多的類型。將類型劃分清楚，用戶標(biāo)簽的生產(chǎn)工具已經(jīng)初具雛形。

在設(shè)置規(guī)則時(shí)產(chǎn)品經(jīng)理應(yīng)該適當(dāng)抽象，過于精細(xì)會(huì)增加研發(fā)的周期，上線后的數(shù)據(jù)查詢也會(huì)有較大的壓力。其次也可能因?yàn)楹Y選條件過多，查詢的數(shù)據(jù)樣本不足，導(dǎo)致空耗資源。

適當(dāng)抽象考驗(yàn)產(chǎn)品經(jīng)理對需求、資源以及應(yīng)用的平衡能力，以用戶訪問行為為例，在初期不建議放開全量查詢，可以優(yōu)先將頻次高、強(qiáng)度高的查詢需求抽象成規(guī)則，如商品詳情、平臺(tái)活動(dòng)、渠道投放等。

基于規(guī)則定義和基于數(shù)據(jù)統(tǒng)計(jì)這兩種用戶標(biāo)簽構(gòu)建方式在產(chǎn)品設(shè)計(jì)中的邏輯是相對簡單的，就不花更多的篇幅解釋了。

2、基于主題模型的標(biāo)簽生產(chǎn)方式

主題模型，最開始運(yùn)用于內(nèi)容領(lǐng)域，目的是找到用戶的偏好，它將內(nèi)容劃分為了3個(gè)層級：分類、主題、關(guān)鍵詞。

圖5-基于主題模型的標(biāo)簽生產(chǎn)方式

在用戶標(biāo)簽中我們可以參照分類算法將用戶進(jìn)行分類、聚類，使用關(guān)鍵詞的算法挖掘用戶的偏好，從而生產(chǎn)標(biāo)簽。

2-1、線性支持向量機(jī)

線性支持向量機(jī)(Linear Support Vector Machine)是一種二分類算法，適用于“是與否”，“有或無”的問題，它隸屬于機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)(Supervised Learning)。

圖6-函數(shù)公式

有監(jiān)督學(xué)習(xí)，類似我們從小接觸的函數(shù)公式，即根據(jù)輸入(x)，和公式f(x)得到輸出(y)，假設(shè)x是數(shù)據(jù)的特征，那么經(jīng)過函數(shù)的運(yùn)算后我們能夠得到分類結(jié)果。

以人口屬性為例，非社交應(yīng)用用戶填寫自己性別的主動(dòng)性較低。當(dāng)我們想了解用戶的性別組成，卻只有10%用戶填寫了性別，而另外90%的用戶的性別是未知的。

在機(jī)器學(xué)習(xí)中，我們會(huì)將明確性別的用戶作為數(shù)據(jù)樣本，提取他們的數(shù)據(jù)特征訓(xùn)練模型。以明確性別的用戶的數(shù)據(jù)特征設(shè)為x，性別為y，訓(xùn)練出f(x)的函數(shù)之后，我們將其他未知性別的用戶特征代入到公式f(x)中，從而去預(yù)測他們的性別。

函數(shù)是是由模型訓(xùn)練而成的，線性支持向量機(jī)是怎么訓(xùn)練的呢？

圖7-支持向量機(jī)圖解

在圖7中，我們發(fā)現(xiàn)有一條直線將象限中的數(shù)據(jù)分成了兩部分，而支持向量機(jī)則是找到一條劃分效果最好的直線。劃分效果越好，新數(shù)據(jù)分類錯(cuò)誤的可能性也越低，而這兩個(gè)類別在支持向量機(jī)中我們也叫正樣本和負(fù)樣本。

回到線性支持向量機(jī)的定義：“對于給定的數(shù)據(jù)集，能在樣本空間中找到一條劃分直線，從而將兩個(gè)不同類別的樣本分開，并且這條直線距離最接近的訓(xùn)練數(shù)據(jù)點(diǎn)最遠(yuǎn)?！?/span>

圖8-支持向量機(jī)實(shí)例

圖8以購買過男性/女性短袖作為男性用戶和女性用戶的特征，黑點(diǎn)表示為已知的男性用戶，白點(diǎn)為已知的女性用戶。

當(dāng)遇到新的未知性別的用戶，但是我們發(fā)現(xiàn)其有購買過男性短袖這一行為，而這一用戶的數(shù)據(jù)落在了男性部分，所以我們預(yù)測這個(gè)用戶是男性。

當(dāng)然在實(shí)際過程中，數(shù)據(jù)的特征絕對不僅是簡單的二維特征，在這里只是方便大家理解。線性支持向量機(jī)在三維求解的是一個(gè)分類效果最好的平面，而在高維則是線性函數(shù)。

圖9-線性支持向量機(jī)的目標(biāo)函數(shù)

線性支持向量機(jī)的目標(biāo)函數(shù)求解的過程比較復(fù)雜（文末彩蛋預(yù)警），在小規(guī)模數(shù)據(jù)集中線性支持向量機(jī)的表現(xiàn)是較好的，但是由于受到了數(shù)據(jù)量的限制，我們會(huì)運(yùn)用訓(xùn)練更加簡單并且能實(shí)時(shí)計(jì)算的算法——邏輯回歸。

2-2、邏輯回歸

邏輯回歸(Logistic Regression)是和線性支持向量機(jī)非常相似，它們都是有監(jiān)督學(xué)習(xí)方法，在不考慮核函數(shù)時(shí)都是線性的分類方法。其不同點(diǎn)在于，線性支持向量機(jī)是基于距離分類，而邏輯回歸是基于可能性分類。

理解邏輯回歸之前，我們先復(fù)習(xí)一下最簡單的一元線性回歸。一元線性回歸的公式是：y=kx+b。

圖10-一元線性回歸圖例

我們假定圖10中的直線，代表著人在勻速狀態(tài)下路程與速度的關(guān)系。但在實(shí)際情況下人的速度不是恒定的，我們沒有辦法使不同時(shí)間的速度都穿過這條直線。退而求其次，我們?nèi)フ乙粭l最接近這些速度數(shù)據(jù)的支線。

看到圖10的函數(shù)圖例，大家會(huì)發(fā)現(xiàn)線性回歸和線性支持向量機(jī)非常的相像，線性回歸與邏輯回歸有什么關(guān)系？邏輯回歸又是怎樣的一種分類方式？

邏輯回歸在線性回歸的基礎(chǔ)上套用了sigmoid函數(shù)，它將回歸函數(shù)的結(jié)果映射在sigmoid函數(shù)之中，這個(gè)函數(shù)的特點(diǎn)是其值域分布在[0,1]之間，1和0對應(yīng)了二分類的“是與否”，隨著x值的變化，y值會(huì)不斷的趨近于0或1，這種趨近我們稱之為可能性。

圖11-sigmoid函數(shù)圖例

在線性支持向量機(jī)中只有兩種值：正樣本和負(fù)樣本，而邏輯回歸除了分類還能夠表達(dá)分類的概率。

2-3、文本挖掘算法：TF-IDF

TF意思是詞頻(Term Frequency)，IDF意思是逆文本頻率指數(shù)(Inverse Document Frequency)，在用戶畫像的構(gòu)建中我們會(huì)將其運(yùn)用于生產(chǎn)用戶的偏好標(biāo)簽。

TF表述的核心思想是，在1條文本中反復(fù)出現(xiàn)的詞更重要。而IDF的思想是，在所有文本都出現(xiàn)的詞是不重要的，IDF用于修正TF所表示的計(jì)算結(jié)果。

圖12-TF-IDF計(jì)算公式

上文描述TF-IDF能夠用于生產(chǎn)用戶的偏好標(biāo)簽，其中的原理是什么呢？

我們將一名用戶類比為一篇文章，用戶瀏覽的商品標(biāo)題在分詞匯總后作為其中的詞庫，平臺(tái)的用戶總數(shù)即為文本總數(shù)，出現(xiàn)該詞語的文本數(shù)作為有同樣瀏覽行為的用戶。這樣轉(zhuǎn)置過后，就能夠進(jìn)行計(jì)算了。

圖13-用戶A的商品瀏覽記錄

以用戶A為例，用戶A擁有3條瀏覽記錄，分詞后總計(jì)17個(gè)詞。

設(shè)：平臺(tái)的用戶總數(shù)=10000人，用戶瀏覽過的商品標(biāo)題帶有“黑色”1詞的用戶有500人，底數(shù)為2。

圖14-標(biāo)簽“黑色”的TF-IDF

以底數(shù)為2，可計(jì)算“黑色”這個(gè)標(biāo)簽對用戶的權(quán)重是0.52，有了權(quán)重我們能夠?qū)⑵溥\(yùn)用于尋找相似用戶。

三、標(biāo)簽的權(quán)重

圖15-標(biāo)簽權(quán)重計(jì)算公式

標(biāo)簽權(quán)重的計(jì)算公式來源于趙洪田撰寫的文章《用戶標(biāo)簽之標(biāo)簽權(quán)重算法》，權(quán)重公式的解讀如下：

1、行為類型權(quán)重

指的是對于同一類標(biāo)簽，由于其行為的輕重不同所以權(quán)重不同。

如：用戶對于某商品有過生成訂單的行為，根據(jù)訂單未支付、已支付未退款、已支付已退款三種訂單狀態(tài)，制定不同的權(quán)重。

2、時(shí)間衰減因子

時(shí)間衰減因子體現(xiàn)了標(biāo)簽的熱度隨著時(shí)間逐漸冷卻的過程，它來源于牛頓冷卻定律。

圖16-牛頓冷卻定律原始公式

定律描述的是物體的冷卻速度與其當(dāng)前溫度和室溫之間的溫差成正比。運(yùn)用于新聞?lì)I(lǐng)域，一條新聞可能在今天它的“溫度”是最高的，但是隨著時(shí)間，這條新聞會(huì)逐漸的變成和普通新聞一樣的“溫度”。

經(jīng)過對牛頓冷卻定律的推導(dǎo)，我們得出了以下公式：

圖17-冷卻系數(shù)計(jì)算公式

將公式翻譯成中文：當(dāng)前溫度=原始溫度 X exp(-冷卻系數(shù) X 間隔時(shí)間)

運(yùn)用于標(biāo)簽的翻譯：當(dāng)前權(quán)重=原始權(quán)重 X exp(-冷卻系數(shù) X 間隔時(shí)間)

如：將用戶發(fā)生行為的當(dāng)日該偏好的權(quán)重設(shè)置為1，10天后設(shè)置為0.2，也就是經(jīng)過9天后權(quán)重會(huì)衰減是0.2，將已知變量代入到圖13的公式中，經(jīng)過指數(shù)的運(yùn)算得到冷卻系數(shù)，從而得到時(shí)間衰減因子。

對于不同的標(biāo)簽，時(shí)間的衰減因子系數(shù)是不同的，有的標(biāo)簽甚至是不受時(shí)間所影響，在計(jì)算時(shí)可以不必考慮衰減因子。

公式中的TF-IDF、行為頻次，前者已經(jīng)描述過，后者也比較好理解在這里也不再贅述。標(biāo)簽的權(quán)重可以用于查找相似用戶，進(jìn)行個(gè)性化推薦，如果有有興趣的朋友可以閱讀我的上一篇文章《如何理解個(gè)性化推薦中的數(shù)學(xué)原理》。

寫在最后

近期恰好設(shè)計(jì)了用戶標(biāo)簽的提取工具，撰寫本文原意是想回顧項(xiàng)目、查漏補(bǔ)缺。過程中閱讀了一些人工智能的書籍，給了自己很多的啟發(fā)，于是也將所了解的一些算法添加進(jìn)來，如果有理解不正確的地方也請朋友們不吝指教。

這篇文章涉及的算法部分主要參考了：《產(chǎn)品經(jīng)理進(jìn)階：100個(gè)案例搞懂人工智能》，這是一本很好的工具書，提供了特別好的知識(shí)框架讓我體系化的認(rèn)識(shí)人工智能。

重點(diǎn)參考資料

1、林中翹—《產(chǎn)品經(jīng)理進(jìn)階：100個(gè)案例搞懂人工智能》

2、吳軍—《數(shù)學(xué)之美》

3、CWS_chen—《用戶畫像原理、技術(shù)選型及架構(gòu)實(shí)現(xiàn)》

https://blog.csdn.net/SecondLieutenant/article/details/81153565

4、凌靖—《用戶畫像》

https://zhuanlan.zhihu.com/p/34385914

5、Jack Cui—機(jī)器學(xué)習(xí)實(shí)戰(zhàn)教程（八）：支持向量機(jī)原理篇之手撕線性SVM

https://cuijiahua.com/blog/2017/11/ml_8_svm_1.html

6、伏草唯存—邏輯回歸模型算法研究和案例分析

https://cloud.tencent.com/developer/article/1330810

7、hffzkl—基于牛頓冷卻定律的時(shí)間衰減函數(shù)模型

https://blog.51cto.com/9269309/1865554

8、趙宏田—《用戶標(biāo)簽之權(quán)重算法》

9、劉星辰—《基于文本挖掘的用戶畫像系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》

10、Coding Fish—《SVM原理及推導(dǎo)》

https://www.jianshu.com/p/05693f2091b7

構(gòu)建用戶畫像中所用到的數(shù)據(jù)挖掘算法