<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          淺談圖深度學習在廣告反作弊領(lǐng)域的應(yīng)用

          共 2574字,需瀏覽 6分鐘

           ·

          2022-06-21 11:03


            近些年隨著圖深度學習的迅猛發(fā)展,圖神經(jīng)網(wǎng)絡(luò)在風控領(lǐng)域有著廣泛的應(yīng)用。圖深度學習算法可以刻畫圖中的結(jié)構(gòu)信息和節(jié)點自身的特征信息,并且深度學習方法有強大的泛化能力,能大幅提升識別效果。如下圖所示,根據(jù)節(jié)點的上下文特征,我們希望采用圖神經(jīng)網(wǎng)絡(luò)的方法,構(gòu)建設(shè)備的二分類問題,預(yù)測用戶群體是否屬于作弊群體,來達到檢測的目的。

           

           

          圖神經(jīng)網(wǎng)絡(luò)預(yù)測示意圖


          2018年,Liu等提出了欺詐行為的圖嵌入模型(Graph Embedding for Malicious accounts, GEM),認為同時存在設(shè)備聚集(Device Aggregation)和行為聚集(Activity Aggregation),并結(jié)合兩者構(gòu)建異質(zhì)圖挖掘支付寶上的欺詐行為。

               
          其中設(shè)備聚集可解釋為,受購買設(shè)備花銷考量,欺詐者一般并不會擁有大量的計算機設(shè)備,通常會在相同設(shè)備群上采用多個賬號的方式實施欺詐行為,稱為設(shè)備聚集;欺詐者往往需要在某個時期內(nèi),完成相應(yīng)的欺詐任務(wù),受時間的限制,會在設(shè)備上執(zhí)行類似或者說重復性的任務(wù),稱為行為聚集。

          建圖是應(yīng)用圖算法的基礎(chǔ),良好的構(gòu)圖依賴對業(yè)務(wù)的理解。在現(xiàn)實生活中,相同的IP地址段內(nèi),可能同時存在著正常的用戶與欺詐者,因此要綜合考慮設(shè)備積聚和行為積聚。展開而言,設(shè)備聚集性表現(xiàn)為一個帳戶注冊或登錄同一個設(shè)備或一組公共設(shè)備,若這一個(一組)設(shè)備上有大量其他賬戶登陸,那么此類帳戶是可疑的;行為聚集性具體表現(xiàn)為,如果共享設(shè)備的賬戶行為是批量進行的,那么此類賬戶是可疑的。

           

          實踐中圖模型包括,構(gòu)建關(guān)系圖、圖上特征、圖算法三個方面,本案例中采用的圖算法模型為GraphSAGE模型,構(gòu)圖關(guān)系和圖上的特征則需要精細的設(shè)計。




          • 圖關(guān)系

          風控中一般將圖構(gòu)建為二部異質(zhì)圖,使用用戶的行為數(shù)據(jù)作為數(shù)據(jù)源,其中一類節(jié)點表示用戶(設(shè)備),另一類節(jié)點則表示為特征節(jié)點。如果在同一個時間窗口,多個用戶使用了同一個IP,就可以將這個用戶和IP關(guān)聯(lián)到一起,構(gòu)建了一個由用戶和節(jié)點形成的二部圖,邊就是二者之間的關(guān)系。


          • 風控場景圖特征工程

          針對圖算法,特征工程和圖的構(gòu)建方式是非常重要的。如果圖的結(jié)構(gòu)不合理的話,即使算法模型再強大、特征工程處理得再好,算法訓練出的結(jié)果也不是最終理想的效果。一些團伙攻擊廣告主,特征表現(xiàn)為cookie、IPutdid(設(shè)備唯一標識符)的排列組合,同時,為了繞開基于簡單統(tǒng)計的反作弊系統(tǒng),作弊團伙會讓每個設(shè)備介質(zhì)有較少的點擊次數(shù)。作弊團伙雖然會不斷切換IP和賬戶ID,但是受成本限制,作弊團伙使用過的帳戶和IP會不可避免的產(chǎn)生一些關(guān)聯(lián)。

               相較于正常用戶,欺詐用戶之間具有較強的關(guān)聯(lián)性,可以認為這個簇是一個高可疑作弊團伙,下圖是抽取的其中一個簇的行為示例,同顏色的表示使用同一資源,簇中的用戶在不斷點擊京東的廣告頁面,并且在短時間內(nèi)不斷切換IP、cookie、useragent等資源以繞過反作弊系統(tǒng)。

           

           相較于正常用戶,欺詐用戶之間具有較強的關(guān)聯(lián)性



          GraphSAGE 是圖神經(jīng)網(wǎng)絡(luò)模型中一個優(yōu)秀的模型,它是一種歸納框架,可以利用節(jié)點特征信息來高效地為未出現(xiàn)過的節(jié)點生成節(jié)點向量,模型不是為每個節(jié)點專門訓練節(jié)點向量,而是訓練得到一個函數(shù),這個函數(shù)功能是從節(jié)點的局部鄰居節(jié)點采樣并聚合特征信息,這使得GraphSAGE可以適應(yīng)大規(guī)模圖動態(tài)變化的場景,聚合函數(shù)也有平均聚合,LSTM,最大池化等選項進行調(diào)優(yōu)。同時,GraphSAGE可采用小批量的訓練方式,通過采樣鄰居節(jié)點以有效減少內(nèi)存開銷以及訓練時間。
           
          在流量風控中為檢測出作弊設(shè)備,需要將網(wǎng)絡(luò)關(guān)系圖構(gòu)建為包括設(shè)備統(tǒng)計節(jié)點和設(shè)備信息節(jié)點的二部圖。設(shè)備統(tǒng)計節(jié)點的特征包含:時序特征(一段時間內(nèi)的點擊量分布)、統(tǒng)計特征(點擊量、IP個數(shù)、操作系統(tǒng)個數(shù))、節(jié)點度等相關(guān)特征。設(shè)備信息節(jié)點則包括設(shè)備端口、時間區(qū)段、用戶代理(User Agent)。GraphSAGE一般適用于同構(gòu)圖中,為了能讓該異構(gòu)網(wǎng)絡(luò)適用于GraphSAGE,我們采用相同長度N的向量表示兩種節(jié)點的特征,m維表示設(shè)備節(jié)點特征,后面N-m維表示信息節(jié)點特征,即采用一種擴展的特征向量,將異質(zhì)圖信息融合成同構(gòu)圖。



          節(jié)點特征向量分段含義



          在設(shè)備節(jié)點上并無信息節(jié)點特征,在信息節(jié)點占有的向量分量上按零填充,信息節(jié)點也做類似處理,進行初始化,以滿足向量有意義的加減。下圖中兩種顏色分別表示設(shè)備節(jié)點特征數(shù)據(jù)占位和信息節(jié)點目標節(jié)點數(shù)據(jù)。兩類節(jié)點,即設(shè)備節(jié)點和特征節(jié)點。設(shè)備信息作為關(guān)系紐帶,將具有同一設(shè)備信息節(jié)點的設(shè)備特征節(jié)點關(guān)聯(lián)到一起。


           

           


          GraphSAGE二階信息傳遞過程





          在實際業(yè)務(wù)中,通過無監(jiān)督算法Fraudar等,再由強規(guī)則得到的校驗的黑白標簽數(shù)據(jù)作為GraphSAGE算法的有監(jiān)督學習樣本部分,進行更大規(guī)模的召回。采用圖模型后,召回率得到提升,可檢出更多作弊設(shè)備和賬號。


          黑產(chǎn)設(shè)備(惡意點擊)點擊示意圖

           

          廣告流量作為互聯(lián)網(wǎng)變現(xiàn)的重要方式,虛假流量作為廣告產(chǎn)業(yè)的灰色領(lǐng)域,是廣告流量風控的重災(zāi)區(qū)。廣告反作弊應(yīng)運而生,成為廣告系統(tǒng)的一部分。在實際應(yīng)用中,我們采用Fraudar無監(jiān)督學習方法得到的作弊設(shè)備作為GraphSAGE圖神經(jīng)網(wǎng)絡(luò)的標簽樣本,然后做深度學習訓練,召回更多的作弊設(shè)備。

           
          圖神經(jīng)網(wǎng)絡(luò)是人工智能的一個熱點方向,從圖的視角解讀大數(shù)據(jù),可以靈活建模復雜的信息交互關(guān)系,吸引大量學者的關(guān)注并在多個工業(yè)領(lǐng)域得到廣泛應(yīng)用。本書由淺入深,全面介紹圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識、典型模型方法和應(yīng)用實踐?!秷D深度學習從理論到實踐》不僅包括一般的深度學習基礎(chǔ)和圖基礎(chǔ)知識,還涵蓋了圖表示學習、圖卷積、圖注意力、圖序列等典型圖網(wǎng)絡(luò)模型,以自研的Galileo平臺為代表的圖學習框架,以及圖神經(jīng)網(wǎng)絡(luò)在電商推薦和流量風控方面的兩個典型工業(yè)應(yīng)用。

          推薦閱讀

          我逃到國企了

          再也不接私活了

          Kaggle出了一本競賽書(500頁)

          機器學習基礎(chǔ):用 Lasso 做特征選

          機器學習自動補全代(hán)碼(shù)神器


          瀏覽 104
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲一区二区三区蜜桃 | 天天天日夜夜夜操 | 中文字幕日本无码一区 | 国产综合AV在线 | 日产精品高潮呻吟AV久久 |