全世界的TikTok:揭秘它背后強(qiáng)大的算法系統(tǒng)
導(dǎo)讀:抖音在全球范圍內(nèi)火爆起來了。根據(jù)Sensor Tower的報(bào)道,這個(gè)短視頻應(yīng)用程序在AppStore和Google Play的下載量已經(jīng)超過了20億次。這款風(fēng)靡世界的應(yīng)用程序背后究竟有怎樣的魔力,讓用戶如此著迷? 經(jīng)過研究,我們將答案鎖定在它應(yīng)用的算法程序上。本文來自Medium,作者Catherine Wang,原文標(biāo)題“Why TikTok made its user so obsessive? The AI Algorithm that got you hooked”.

圖片來自tenor
劃重點(diǎn):
1.抖音的介紹。
2.抖音的系統(tǒng)模型(數(shù)據(jù)、功能、算法、學(xué)習(xí)系統(tǒng))。
3.抖音的推薦流程。
病毒式傳播
讓我們開誠布公地說吧,有誰會(huì)不喜歡滑稽小狗或者小奶貓的視頻呢?尤其是在全球因疫情陷入困境的今天,這樣的小視頻多多少少能讓人逃離現(xiàn)實(shí)。
但是寵物小視頻僅僅是抖音爆火的一小部分原因。在不到兩年的時(shí)間里,這款來自中國的APP就在全球范圍內(nèi)擁有了8億個(gè)活躍用戶。2020年,在抖音上,含有“新冠病毒”的視頻被觀看過530億次。

2020年1月,抖音成了下載量最高的APP|圖片來自 SensorTower

抖音在全球范圍內(nèi)的下載量|圖片來自 SensorTower
抖音以生產(chǎn)洗腦神曲和有趣的視頻故事而聞名。它在全球到底有多火爆?通常,人們?cè)诙兑羯匣ㄙM(fèi)的時(shí)間為52分鐘,相比之下,人們?cè)赟napchat、Instagram和Facebook上花費(fèi)的時(shí)間僅為26分鐘、29分鐘和37分鐘。

圖片來自O(shè)berlo
此外,在這款應(yīng)用中,用戶可以盡情上傳60秒內(nèi)的視頻,幾乎不限內(nèi)容。視頻可以包含有情節(jié)的故事、喜劇、舞蹈表演和其他才藝展示。對(duì)觀看的用戶來說,不需要搜索自己想看的內(nèi)容,只要?jiǎng)澮粍?,看幾個(gè)視頻,程序就會(huì)自動(dòng)鎖定你喜歡看的內(nèi)容,然后為你推送類似的視頻。
這種可以獲得不間斷的快樂和刺激的視頻應(yīng)用程序很難不讓人上癮,用戶在不知不覺中就刷抖音刷了幾個(gè)小時(shí)。有人將抖音稱為“業(yè)余時(shí)間的終極殺手”,并且認(rèn)為它會(huì)改變?nèi)藗儗?duì)時(shí)間的認(rèn)識(shí):“抖音上的5分鐘等于現(xiàn)實(shí)世界中的1小時(shí)”。
推薦系統(tǒng)是抖音的秘密武器
今天,我們將要在這篇文章中討論抖音如何利用機(jī)器學(xué)習(xí)技術(shù),通過用戶和手機(jī)的人機(jī)交互過程來分析用戶的興趣愛好。
在數(shù)字時(shí)代,推薦系統(tǒng)(recommendation engine)對(duì)我們來說并不是一個(gè)陌生的概念。有一些人甚至將它類比為“舊時(shí)代的AI系統(tǒng)”。比起未來的人工智能,推薦系統(tǒng)缺少很多令人眼花繚亂的特效,比如圖像識(shí)別或者語音系統(tǒng)。但是推薦系統(tǒng)依舊非常實(shí)用和強(qiáng)大,現(xiàn)在我們熟悉的各大平臺(tái)都在使用這一系統(tǒng)。
比如,Youtube的相關(guān)視頻推薦,Amazon的相似商品推薦郵件,Kindle電子書店里的“你可能還喜歡這些書籍”板塊,這些我們熟悉的內(nèi)容都是推薦系統(tǒng)的“杰作”。
另外,在Uber和Netflix的產(chǎn)品負(fù)責(zé)人尼爾·亨特(Neil Hunt)的一篇論文中,他提到說算法系統(tǒng)讓Netflix每年省下超過10億美元的費(fèi)用。另外,80%的用戶都會(huì)在“推薦列表”里觀看視頻。
我們現(xiàn)在就來探究一下,抖音是如何利用這種推薦系統(tǒng)的。
1. 推薦系統(tǒng)的介紹
(對(duì)于已經(jīng)熟悉推薦系統(tǒng)的人來說,可以跳過這一段內(nèi)容)
事實(shí)上,現(xiàn)在已經(jīng)有很多關(guān)于推薦系統(tǒng)的介紹文章了,大家可以自行搜索,補(bǔ)充最基本的知識(shí)。在這一部分中,我將介紹推薦系統(tǒng)是如何變得產(chǎn)業(yè)化的。它的背后需要一個(gè)強(qiáng)大的設(shè)計(jì)和運(yùn)行后端。下面是一個(gè)簡單的例子:

推薦系統(tǒng)示意圖|圖片來自Medium,創(chuàng)作者Catherine Wang
實(shí)時(shí)推薦系統(tǒng)需要強(qiáng)大的數(shù)據(jù)作支撐(包括數(shù)據(jù)的收集和儲(chǔ)存),用以支持相對(duì)抽象的層面(包括算法層面、服務(wù)層面和應(yīng)用程序?qū)用妫?,從而解決業(yè)務(wù)方面的問題。
2.抖音推薦系統(tǒng)的設(shè)計(jì)原型
抖音的推薦系統(tǒng),簡單來說就是“以用戶為中心”(User-Centric Design)。換句話說,抖音只會(huì)推薦用戶喜歡的內(nèi)容,從剛剛上手的用戶到活躍的用戶都是如此——當(dāng)然,用戶越是活躍,推薦的內(nèi)容也就更加精準(zhǔn)。
如果你刷舞蹈視頻,那么推薦系統(tǒng)就會(huì)根據(jù)這個(gè)現(xiàn)象為你定制娛樂類的視頻,并且根據(jù)你后期的表現(xiàn)進(jìn)一步分析你的喜好,并且更加精準(zhǔn)地鎖定你喜歡什么類的舞蹈視頻。
以下是其工作流程:

流程包含三個(gè)部分|圖片來自Medium,創(chuàng)作者Catherine Wang
在抖音的工作系統(tǒng)中,有三個(gè)主要的板塊:(1)用戶標(biāo)記內(nèi)容(2)創(chuàng)建用戶的肖像及使用場(chǎng)景(3)訓(xùn)練機(jī)器學(xué)習(xí)算法。
2.1 數(shù)據(jù)和功能
首先我們來說說數(shù)據(jù)(Data)。如果我們想要推薦功能更加準(zhǔn)確,數(shù)據(jù)將是一項(xiàng)必不可少的基礎(chǔ)。數(shù)據(jù)包含三個(gè)部分:
內(nèi)容數(shù)據(jù)。用戶在使用抖音的過程中留下了大量的內(nèi)容數(shù)據(jù),這些數(shù)據(jù)可以被用來分類、歸類,方便日后更加精準(zhǔn)的推薦。
用戶數(shù)據(jù)。這種數(shù)據(jù)包括用戶在抖音上留下的各種標(biāo)簽、職業(yè)、年齡、性別等。
場(chǎng)景數(shù)據(jù)。這一類數(shù)據(jù)是關(guān)于用戶使用場(chǎng)景的數(shù)據(jù)。比如,在上下班、旅行的時(shí)候,用戶分別喜歡看哪一類的視頻。
一旦搜集好了數(shù)據(jù),接下來就是將數(shù)據(jù)應(yīng)用在不同的功能中。
關(guān)聯(lián)功能。這類功能包括根據(jù)標(biāo)簽推薦、關(guān)鍵詞搜索、標(biāo)簽分類、資源搜索、主題標(biāo)簽等等。
用戶-場(chǎng)景重現(xiàn)功能。這類功能是基于場(chǎng)景數(shù)據(jù)(包括用戶的地理坐標(biāo)、時(shí)間表、事件的標(biāo)簽)等重現(xiàn)用戶觀看視頻的場(chǎng)景。
協(xié)同功能。簡單來說,這類功能不僅會(huì)分析單個(gè)用戶留下的數(shù)據(jù),還會(huì)分析相似的用戶組的數(shù)據(jù)(包括點(diǎn)擊的內(nèi)容、興趣、關(guān)鍵詞、主題)。
通過上述模型,這款應(yīng)用程序?qū)㈩A(yù)測(cè)某些視頻在某些具體的場(chǎng)景中是否適合某位用戶。
2.2無法度量的目標(biāo)
在推薦系統(tǒng)模型中,點(diǎn)擊率、觀看視頻的時(shí)間、點(diǎn)贊數(shù)量、評(píng)論等都是可以量化的目標(biāo)。系統(tǒng)可以根據(jù)這些量化的目標(biāo)作出預(yù)測(cè)。
但是也有一些目標(biāo)不可度量、無法察覺,難以用這種可量化的指標(biāo)去評(píng)估。
舉個(gè)例子,為了維護(hù)抖音社區(qū)的純凈,必須剔除內(nèi)容含有色情暴力、欺騙消費(fèi)者的內(nèi)容或者謠言的視頻。在這種情況下,就需要在可量化的學(xué)習(xí)框架之外再搭建一個(gè)控制邊界的框架,也就是我們常說的內(nèi)容審核系統(tǒng)。
2.3 算法
推薦系統(tǒng)的成長過程可以被視為機(jī)器學(xué)習(xí)的典型例子。然后通過算法(包括過濾模型、回歸模型等)將整個(gè)推薦機(jī)制加以完善。
產(chǎn)業(yè)化的推薦系統(tǒng)需要靈活且可以拓展的ML平臺(tái),可以允許多種模型疊加起來,時(shí)時(shí)刻刻為用戶服務(wù)。
除了主要算法之外,抖音的推薦系統(tǒng)還要根據(jù)用戶肖像制定特殊的算法,具體的算法系統(tǒng)有層級(jí)分類。
2.4學(xué)習(xí)機(jī)制
抖音的系統(tǒng)中包含實(shí)時(shí)學(xué)習(xí)的機(jī)制。通過捕捉和分析用戶留下的數(shù)據(jù),它可以快速提供反饋。比如,當(dāng)用戶點(diǎn)擊某一種視頻后,抖音會(huì)根據(jù)這一信息快速更新該用戶的“喜好庫”,然后根據(jù)這一改變立馬推薦相似的視頻。

線上學(xué)習(xí)機(jī)制(簡化版)|制圖Catherine Wang,圖片來自Medium
3.抖音的推薦流程
抖音從未向外界公布它的核心算法。但是基于公司發(fā)布的零散的信息,以及工程師們捕捉到的相關(guān)總計(jì),我得出了以下結(jié)論(免責(zé)聲明:以下內(nèi)容來自個(gè)人解釋與推斷,可能與抖音的實(shí)際算法有出入):

圖片來自Medium|制圖Catherine Wang
步驟一:雙重審核Duo-Audit模型
在抖音上,每天都有數(shù)百萬的用戶上傳自己的視頻。有一些不符合規(guī)定的視頻很可能會(huì)逃過單一的審核系統(tǒng)。在這種情況下,僅靠人工審核顯然是不現(xiàn)實(shí)的,所以雙重審核系統(tǒng)是抖音篩選內(nèi)容的一個(gè)基礎(chǔ)。

圖片來自Medium|制圖Catherine Wang
一般來說,Duo-Audit模型可以識(shí)別視頻圖像和關(guān)鍵字。它主要有兩個(gè)功能:(1)檢查視頻中是否有違法違規(guī)的內(nèi)容(包括圖像和文案),一旦有相關(guān)內(nèi)容,系統(tǒng)會(huì)將該條視頻標(biāo)注成黃色和紅色,留到后期再由人工審核(2)通過提取視頻中的關(guān)鍵幀,可以將其與存檔內(nèi)容進(jìn)行對(duì)比,減少審核時(shí)所消耗的流量,同時(shí)減少引擎的負(fù)擔(dān)。
步驟二:啟動(dòng)(cold-start)
當(dāng)上傳的內(nèi)容在雙重審核下通過之后,它將被放入到啟動(dòng)池中。比如,當(dāng)你的新視頻通過審核之后,抖音會(huì)分給你200-300個(gè)活躍賬戶作為初始流量,你的視頻由此可以獲得幾千次的展示機(jī)會(huì)。在這種機(jī)制下,新創(chuàng)作者和大V得以競(jìng)爭(zhēng),因?yàn)樗麄兊钠瘘c(diǎn)都是一樣的。
步驟三:量化評(píng)估
投放進(jìn)流量池后,視頻可以獲得數(shù)千次觀看,和視頻相關(guān)的數(shù)據(jù)也會(huì)被收集和分析。比如獲贊數(shù)量、觀看數(shù)量、完整的觀看數(shù)量、評(píng)論、關(guān)注者數(shù)量、轉(zhuǎn)發(fā)數(shù)量、分享數(shù)量等等。然后,推薦引擎將根據(jù)這些數(shù)據(jù)對(duì)你的賬戶進(jìn)行評(píng)估,給內(nèi)容進(jìn)行打分。如果你的得分比較高,那么你產(chǎn)出內(nèi)容的10%左右將會(huì)收獲額外的1萬-10萬不等的曝光率。
步驟四:放大器
經(jīng)過上一個(gè)步驟,用戶的反饋將成為一條視頻是否可以獲得更多曝光的標(biāo)準(zhǔn)。在第四個(gè)步驟中,我們將介紹一個(gè)用戶肖像放大機(jī)制。換句話說,優(yōu)秀的視頻內(nèi)容將在特定的用戶組(比如球迷、時(shí)尚愛好者)中得到更多的曝光。這是一種類似于“猜您喜歡什么”的概念。通過用戶留下的各類數(shù)據(jù),抖音可以建立用戶的個(gè)人資料庫,從而在內(nèi)容和用戶間進(jìn)行更好的搭配。

圖片來自Medium|制圖Catherine Wang
步驟五:趨勢(shì)池
在上述步驟重復(fù)一段時(shí)間后,抖音將篩選出少于1%的優(yōu)秀內(nèi)容投放到趨勢(shì)池(Trending Pool)中。在這個(gè)區(qū)域,內(nèi)容的曝光率將會(huì)比其他區(qū)域的曝光率都要高,因?yàn)檫@些被認(rèn)為是優(yōu)質(zhì)內(nèi)容的視頻會(huì)被無差別地推薦給所有用戶。舉個(gè)例子,不管你喜歡足球、時(shí)尚還是電影,你都有可能看到最火爆的“美國反對(duì)警察暴力的游行”這段視頻。
其他步驟:延遲曝光
用戶會(huì)注意到,有一些視頻在剛開始發(fā)布時(shí)反響平平,但是在發(fā)布數(shù)周之后卻突然獲得了巨大的影響力。這種現(xiàn)象是基于以下兩個(gè)原因:
抖音有一個(gè)叫g(shù)ravedigger的算法,可以回顧舊的視頻內(nèi)容,從中挑選并曝光高質(zhì)量的視頻。在這種算法的曝光下,一些優(yōu)秀內(nèi)容最終會(huì)被發(fā)掘出來。
潮流效應(yīng):如果你的某條內(nèi)容獲得了數(shù)百萬的觀看率,那么它就會(huì)固定在你的個(gè)人頁面上。比如如果你專門發(fā)貓貓的視頻,其中一條的觀看率尤其高,那么這一條就會(huì)固定在你的個(gè)人頁面上,而省去了其他相似的、關(guān)注度不那么高的視頻。
曝光是有時(shí)效性的
根據(jù)研究,一條視頻的曝光時(shí)間很短,有時(shí)候只有一周左右的時(shí)間。在一周之后,這條內(nèi)容和這些賬戶的關(guān)注度就會(huì)變低。這是因?yàn)槎兑粝M脩羰盏降耐扑]不局限在同樣的主題里,同時(shí)確保新的內(nèi)容、新的用戶有機(jī)會(huì)加入時(shí)尚大潮。
譯者:Michiko 來源:神譯局/36kr
來源:神譯局/36kr
版權(quán)申明:內(nèi)容來源網(wǎng)絡(luò),版權(quán)歸原創(chuàng)者所有。除非無法確認(rèn),我們都會(huì)標(biāo)明作者及出處,如有侵權(quán)煩請(qǐng)告知,我們會(huì)立即刪除并表示歉意。謝謝!

