淺談圖深度學習在廣告反作弊領(lǐng)域的應(yīng)用
近些年隨著圖深度學習的迅猛發(fā)展,圖神經(jīng)網(wǎng)絡(luò)在風控領(lǐng)域有著廣泛的應(yīng)用。圖深度學習算法可以刻畫圖中的結(jié)構(gòu)信息和節(jié)點自身的特征信息,并且深度學習方法有強大的泛化能力,能大幅提升識別效果。如下圖所示,根據(jù)節(jié)點的上下文特征,我們希望采用圖神經(jīng)網(wǎng)絡(luò)的方法,構(gòu)建設(shè)備的二分類問題,預(yù)測用戶群體是否屬于作弊群體,來達到檢測的目的。

圖神經(jīng)網(wǎng)絡(luò)預(yù)測示意圖
2018年,Liu等提出了欺詐行為的圖嵌入模型(Graph Embedding for Malicious accounts, GEM),認為同時存在設(shè)備聚集(Device Aggregation)和行為聚集(Activity Aggregation),并結(jié)合兩者構(gòu)建異質(zhì)圖挖掘支付寶上的欺詐行為。
其中設(shè)備聚集可解釋為,受購買設(shè)備花銷考量,欺詐者一般并不會擁有大量的計算機設(shè)備,通常會在相同設(shè)備群上采用多個賬號的方式實施欺詐行為,稱為設(shè)備聚集;欺詐者往往需要在某個時期內(nèi),完成相應(yīng)的欺詐任務(wù),受時間的限制,會在設(shè)備上執(zhí)行類似或者說重復性的任務(wù),稱為行為聚集。
建圖是應(yīng)用圖算法的基礎(chǔ),良好的構(gòu)圖依賴對業(yè)務(wù)的理解。在現(xiàn)實生活中,相同的IP地址段內(nèi),可能同時存在著正常的用戶與欺詐者,因此要綜合考慮設(shè)備積聚和行為積聚。展開而言,設(shè)備聚集性表現(xiàn)為一個帳戶注冊或登錄同一個設(shè)備或一組公共設(shè)備,若這一個(一組)設(shè)備上有大量其他賬戶登陸,那么此類帳戶是可疑的;行為聚集性具體表現(xiàn)為,如果共享設(shè)備的賬戶行為是批量進行的,那么此類賬戶是可疑的。
實踐中圖模型包括,構(gòu)建關(guān)系圖、圖上特征、圖算法三個方面,本案例中采用的圖算法模型為GraphSAGE模型,構(gòu)圖關(guān)系和圖上的特征則需要精細的設(shè)計。
圖關(guān)系
風控中一般將圖構(gòu)建為二部異質(zhì)圖,使用用戶的行為數(shù)據(jù)作為數(shù)據(jù)源,其中一類節(jié)點表示用戶(設(shè)備),另一類節(jié)點則表示為特征節(jié)點。如果在同一個時間窗口,多個用戶使用了同一個IP,就可以將這個用戶和IP關(guān)聯(lián)到一起,構(gòu)建了一個由用戶和節(jié)點形成的二部圖,邊就是二者之間的關(guān)系。
風控場景圖特征工程
針對圖算法,特征工程和圖的構(gòu)建方式是非常重要的。如果圖的結(jié)構(gòu)不合理的話,即使算法模型再強大、特征工程處理得再好,算法訓練出的結(jié)果也不是最終理想的效果。一些團伙攻擊廣告主,特征表現(xiàn)為cookie、IP、utdid(設(shè)備唯一標識符)的排列組合,同時,為了繞開基于簡單統(tǒng)計的反作弊系統(tǒng),作弊團伙會讓每個設(shè)備介質(zhì)有較少的點擊次數(shù)。作弊團伙雖然會不斷切換IP和賬戶ID,但是受成本限制,作弊團伙使用過的帳戶和IP會不可避免的產(chǎn)生一些關(guān)聯(lián)。
相較于正常用戶,欺詐用戶之間具有較強的關(guān)聯(lián)性,可以認為這個簇是一個高可疑作弊團伙,下圖是抽取的其中一個簇的行為示例,同顏色的表示使用同一資源,簇中的用戶在不斷點擊京東的廣告頁面,并且在短時間內(nèi)不斷切換IP、cookie、useragent等資源以繞過反作弊系統(tǒng)。


節(jié)點特征向量分段含義




黑產(chǎn)設(shè)備(惡意點擊)點擊示意圖
廣告流量作為互聯(lián)網(wǎng)變現(xiàn)的重要方式,虛假流量作為廣告產(chǎn)業(yè)的灰色領(lǐng)域,是廣告流量風控的重災(zāi)區(qū)。廣告反作弊應(yīng)運而生,成為廣告系統(tǒng)的一部分。在實際應(yīng)用中,我們采用Fraudar無監(jiān)督學習方法得到的作弊設(shè)備作為GraphSAGE圖神經(jīng)網(wǎng)絡(luò)的標簽樣本,然后做深度學習訓練,召回更多的作弊設(shè)備。
圖神經(jīng)網(wǎng)絡(luò)是人工智能的一個熱點方向,從圖的視角解讀大數(shù)據(jù),可以靈活建模復雜的信息交互關(guān)系,吸引大量學者的關(guān)注并在多個工業(yè)領(lǐng)域得到廣泛應(yīng)用。本書由淺入深,全面介紹圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識、典型模型方法和應(yīng)用實踐?!秷D深度學習從理論到實踐》不僅包括一般的深度學習基礎(chǔ)和圖基礎(chǔ)知識,還涵蓋了圖表示學習、圖卷積、圖注意力、圖序列等典型圖網(wǎng)絡(luò)模型,以自研的Galileo平臺為代表的圖學習框架,以及圖神經(jīng)網(wǎng)絡(luò)在電商推薦和流量風控方面的兩個典型工業(yè)應(yīng)用。
推薦閱讀
