<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          綜述 | GNN金融風(fēng)控領(lǐng)域業(yè)界進(jìn)展調(diào)研

          共 12710字,需瀏覽 26分鐘

           ·

          2022-01-13 20:10

          前言:

          本文重點(diǎn):

          • 工業(yè)界 金融欺詐風(fēng)控領(lǐng)域上?GNN的應(yīng)用及進(jìn)展

          注:

          • 本文僅針對 可用「深度圖神經(jīng)網(wǎng)絡(luò)解決」的 - 「金融風(fēng)控」相關(guān)的任務(wù)論文

          • 「除深度圖神經(jīng)網(wǎng)絡(luò)之外,業(yè)界常用經(jīng)典圖算法」 &?「除金融欺詐風(fēng)控領(lǐng)域之外,常見推薦等任務(wù)」 & 「圖數(shù)據(jù)庫存儲方式」會順帶提及,但本文不會詳細(xì)講解

          前置知識:


          目錄


          • 前言

          • 1??WHY GNN

            • GNN 的核心

            • 未來的研究方向

            • 圖神經(jīng)網(wǎng)絡(luò)框架

            • GNN相關(guān)的一些開源平臺

          • 2??圖數(shù)據(jù)集選取條件

            • 現(xiàn)有開源數(shù)據(jù)集

            • 金融風(fēng)控類 - 數(shù)據(jù)集現(xiàn)狀

          • 3??金融風(fēng)控方向GNN進(jìn)展

            • 阿里螞蟻

              • 【網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)】自動選擇鄰居的GNN

              • 【淘寶】運(yùn)費(fèi)險(xiǎn)詐騙識別「反欺詐」

                • 運(yùn)費(fèi)騙保

                • GeniePath算法

              • 【支付寶】惡意賬戶識別 /?高危賬戶識別

                • 欺詐/惡意賬戶檢測

                • GEM算法,世界上已知的首個(gè)利用圖卷積進(jìn)行惡意賬戶識別

              • 【螞蟻金服信貸】貸款違約預(yù)測

              • 【GNN框架】

            • IBM

              • 【比特幣洗錢識別】

            • 北航

              • 【互聯(lián)網(wǎng)評論欺詐】

            • GNN業(yè)界進(jìn)展

          • 4??其他方向進(jìn)展

            • 阿里

              • 【廣告推薦】

              • 【淘寶推薦】

              • 【推薦系統(tǒng)】

            • Uber Eats

              • 【餐廳推薦】

            • 網(wǎng)易音樂

              • 【音樂推薦】

            • 滴滴

              • 【車輛調(diào)控管理】

            • Fabula?AI

              • 【假新聞檢測】

            • Comodo 科摩多

              • 【惡意應(yīng)用識別】

          • 5??其他相關(guān)&參考資料


          1??WHY GNN

          非歐空間需要GNN來解決:

          • 當(dāng)前,深度學(xué)習(xí)技術(shù)已經(jīng)在語音識別、機(jī)器翻譯、圖像分析和計(jì)算機(jī)視覺等方向取得了重要成果

          • ? 歐氏空間:音頻 / 自然語言(1D)、圖像(2D)、視頻(3D)

          • ? 非歐空間:社交網(wǎng)絡(luò)數(shù)據(jù)、生物化學(xué)圖結(jié)構(gòu)、引文網(wǎng)絡(luò)等


          “圖結(jié)構(gòu)”的分類

          • 有向 / 無向(邊)

          • 有權(quán) / 無權(quán)(邊)

          • 有特征 / 無特征(節(jié)點(diǎn)?/ 邊)

          • 同構(gòu) / 異購(節(jié)點(diǎn) / 邊)

          • Attributed:考慮節(jié)點(diǎn)性質(zhì),如用戶性別、年齡、購買力等

          • Multiplex:多重邊,節(jié)點(diǎn)之間可能有多種關(guān)系,比如說兩個(gè)用戶之間可能為好友、同學(xué)、交易關(guān)系等;用戶和item之間可以瀏覽、點(diǎn)擊、添加到購物車、購買等

          • Heterogeneous:異構(gòu),節(jié)點(diǎn)和邊有多種類型,節(jié)點(diǎn)類型+邊類型>2

          • -- Representation Learning for Attributed Multiplex Heterogeneous Network ?阿里異構(gòu)Embedding?GATNE


          GNN 的核心

          • 就是 information diffusion mechanism / message passing。

          • 其核心就是要在相互連接的節(jié)點(diǎn)之間交換信息,即需要迭代地更新節(jié)點(diǎn)的表示,每一次更新,每個(gè)節(jié)點(diǎn)上的信息都和相鄰節(jié)點(diǎn)做一定的交互。

          • 這兩類都通過一個(gè)參數(shù)化表示的深度學(xué)習(xí)模塊來做這樣的信息交換:在 RecGNN 中, 每一步信息交換的變換函數(shù)都是一樣的,并且目標(biāo)是做很多次這樣的信息交換直到每個(gè)節(jié)點(diǎn)上的特征都達(dá)到穩(wěn)態(tài);在 ConvGNN 中,每一步信息交換的函數(shù)都不一樣,并且只經(jīng)過有限步的信息交換。這一點(diǎn)區(qū)別如下圖所示。

          • 對于 graph-level 的任務(wù)來說,還需要從圖上每個(gè)節(jié)點(diǎn)把信息聚合起來,這就涉及到很多 pooling 的技術(shù)。


          圖神經(jīng)網(wǎng)絡(luò)的基本思想:

          • 圖神經(jīng)網(wǎng)絡(luò)的基本思想,就是基于節(jié)點(diǎn)的局部鄰居信息對節(jié)點(diǎn)進(jìn)行embedding。

          • 直觀來講,就是通過神經(jīng)網(wǎng)絡(luò)來聚合每個(gè)節(jié)點(diǎn)及其周圍節(jié)點(diǎn)的信息。

          • 算法思想是基于節(jié)點(diǎn)的局部鄰居及其自身特征信息對節(jié)點(diǎn)進(jìn)行表示學(xué)習(xí)(Node Representation Learning)。

          • 本質(zhì)上是通過神經(jīng)網(wǎng)絡(luò)對聚合節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)的特征信息做非線性變換。

          • 圖神經(jīng)網(wǎng)絡(luò)有很多變種,可以從圖的類型、訓(xùn)練方法和傳播步驟等多方面進(jìn)行變種分類。


          圖上的學(xué)習(xí)任務(wù)

          • 1、圖節(jié)點(diǎn)分類任務(wù):圖中每個(gè)節(jié)點(diǎn)都有對應(yīng)的特征,當(dāng)我們已知一些節(jié)點(diǎn)的類別的時(shí)候,可以設(shè)計(jì)分類任務(wù)針對未知節(jié)點(diǎn)進(jìn)行分類

          • 2、圖邊結(jié)構(gòu)預(yù)測任務(wù):圖中的節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊關(guān)系可能在輸入數(shù)據(jù)中能夠采集到,而有些隱藏的邊需要我們挖掘出來。就是對邊的預(yù)測任務(wù),節(jié)點(diǎn)和節(jié)點(diǎn)之間關(guān)系的預(yù)測。

          • 3、圖的分類:對于整個(gè)圖來說,我們也可以對圖分類?;舅悸肥菍D中節(jié)點(diǎn)的特征聚合起來作為圖的特征,再進(jìn)行分類。

          另:

          • 一般在圖中尋找子團(tuán)的任務(wù)為社群檢測(Community Detection)或者叫作高密子圖挖掘(Dense Subgraph Mining)

          • 算法不斷刪除節(jié)點(diǎn)使得剩下的節(jié)點(diǎn)構(gòu)成的社區(qū)可疑度最大,然后記錄整個(gè)刪除過程中社區(qū)可疑度最大的那一輪,那么該輪的剩余節(jié)點(diǎn)構(gòu)成的子圖就是最可疑的。

          • 針對固定問題使用固定算法,如FRAUDAR?算法自動化地挖掘出二部圖里的高密子圖,較少用GNN解決

          • https://zhuanlan.zhihu.com/p/45625323


          學(xué)習(xí)任務(wù)的應(yīng)用

          • 圖神經(jīng)網(wǎng)絡(luò)在文本分類Text classification)

          • 序列標(biāo)注(Sequence labeling)

          • 神經(jīng)機(jī)器翻譯(Neural machine translation)

          • 關(guān)系抽取(Relation extraction)

          • 事件抽?。‥vent extraction)

          • 圖像分類(Image Classification)

          • 視覺推理(Visual Reasoning)

          • 語義分割(Semantic Segmentation)

          • 等等


          領(lǐng)域應(yīng)用:

          • 風(fēng)控領(lǐng)域、推薦系統(tǒng)(社交網(wǎng)絡(luò) / 電商推薦)、生物醫(yī)療等等


          未來的研究方向

          • 如何有效地提升模型復(fù)雜度:因?yàn)?convolution 層變多時(shí),各個(gè)節(jié)點(diǎn)的特征將會變得越來越接近,加多層數(shù)最后會使得所有的點(diǎn)上的特征都變成一樣的,因此不能單獨(dú)靠把模型做深來提高模型復(fù)雜度。

          • 如何提高模型的拓展性:當(dāng)圖的規(guī)模變得特別大時(shí),就需要考慮如何來對圖進(jìn)行聚合并且盡量不要丟失圖上的信息。有兩種思路:sampling 可能會使得節(jié)點(diǎn)丟失一些很關(guān)鍵的鄰居;clustering 可能會使得圖丟失一些比較特別的結(jié)構(gòu)模式。

          • 如何融合異源數(shù)據(jù):真實(shí)應(yīng)用場景中,圖可能會有不同類型的節(jié)點(diǎn)、連邊,如何處理這些數(shù)據(jù)也將成為一個(gè)研究方向。

          • 如何處理動態(tài)的圖:就像 STGNN 中所做的事情一樣。


          圖神經(jīng)網(wǎng)絡(luò)框架

          幾種當(dāng)下最為廣泛的圖神經(jīng)網(wǎng)絡(luò)框架

          1、Deep Graph Library(DGL)

          • DGL采用了基于「消息傳遞」的編程模型

          • 消息傳遞是圖計(jì)算的經(jīng)典編程模型。

          • DGL已經(jīng)支持PyTorch、MXNet和TensorFlow作為其后端。

          2、PyTorch Geometric(PyG)

          • PyG目前支持大量常見基準(zhǔn)數(shù)據(jù)集

          • 基于PyTorch的幾何深度學(xué)習(xí)擴(kuò)展庫

          3、Ant Graph machine Learning system(AGL)

          • 由阿里的螞蟻金服團(tuán)隊(duì)推出的大規(guī)模圖機(jī)器學(xué)習(xí)系統(tǒng)

          4、tf_geometric

          ????????同時(shí)支持TensorFlow 1.x和2.x的圖神經(jīng)網(wǎng)絡(luò)框架

          5、PGL

          ????????由百度的paddle一個(gè)基于 PaddlePaddle 的高效易用的圖學(xué)習(xí)框架


          GNN相關(guān)的一些開源平臺

          1、Deep Graph Library(DGL)

          • DGL由紐約大學(xué)、紐約大學(xué)上海分校、AWS上海研究所和AWS MXNet科學(xué)小組開發(fā)和維護(hù)GNN平臺。開始時(shí)間: 2018.

          • 地址:https://www.dgl.ai/,

          • github地址:?https://github.com/jermainewang/dgl

          2、NGra

          • NGra是由北京大學(xué)和微軟亞洲研究院開發(fā)和維護(hù)一款GNN平臺。開始時(shí)間:2018。

          • 地址:https://arxiv.org/pdf/1810.08403.pdf

          3、Graph_nets

          • Graph_nets是由DeepMind, Google Corp開發(fā)和維護(hù)的。開始時(shí)間:2018

          • 地址:?https://github.com/deepmind/graph_nets

          4、Euler

          • Euler是一款由阿里巴巴旗下的阿里媽媽開源的GNN平臺。開始時(shí)間:2019

          • 地址:?https://github.com/alibaba/euler

          5、PyTorch Geometric

          • PyTorch Geometric由德國杜特蒙德大學(xué)開發(fā)和維護(hù)的GNN平臺。開始時(shí)間:2019

          • 地址:https://github.com/rusty1s/pytorch_geometric

          • 論文:https://arxiv.org/abs/1903.02428?context=cs.LG

          6、PyTorch-BigGraph(PBG)

          • PBG是由Facebook人工智能研究開發(fā)和維護(hù)的GNN平臺。

          • 開始時(shí)間:2019

          • 地址:?https://github.com/facebookresearch/PyTorch-BigGraph

          • 論文:https://arxiv.org/abs/1903.12287


          2??圖數(shù)據(jù)集選取條件

          圖數(shù)據(jù)集的選擇:

          • 關(guān)系型數(shù)據(jù),復(fù)雜網(wǎng)絡(luò)

          • 圖(graph)是一種數(shù)據(jù)結(jié)構(gòu),常見的圖結(jié)構(gòu)由節(jié)點(diǎn)(node)和邊(edge)構(gòu)成,節(jié)點(diǎn)包含了實(shí)體(entity)信息,邊包含實(shí)體間的關(guān)系(relation)信息。

          • 「節(jié)點(diǎn)」和「邊」必需,節(jié)點(diǎn)屬性/類別 &?邊權(quán)重/類別 可選(異構(gòu))


          本次調(diào)研要求領(lǐng)域:

          • 金融風(fēng)控?> 電商網(wǎng)絡(luò) > 社交網(wǎng)絡(luò)


          現(xiàn)有開源數(shù)據(jù)集

          已有大規(guī)模公開數(shù)據(jù)集

          • 斯坦福大學(xué):

          • https://snap.stanford.edu/data/(大型社交、信息網(wǎng)絡(luò)。包括:圖分類數(shù)據(jù)庫、社交網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、亞馬遜網(wǎng)絡(luò)等

            • 可用:社交網(wǎng)絡(luò) /?亞馬遜電商數(shù)據(jù)

          • https://ogb.stanford.edu/(三種圖任務(wù)上的真實(shí)基準(zhǔn)數(shù)據(jù)集,同時(shí)提供數(shù)據(jù)加載器和評估器(PyTorch)

            • 可用:亞馬遜電商數(shù)據(jù)?

            • -- –?https://blog.csdn.net/lj2048/article/details/106575412/

          • -- ?–?https://www.pianshen.com/article/71231875410/


          亞馬遜電商網(wǎng)絡(luò)

          • 常用任務(wù):節(jié)點(diǎn)分類,預(yù)測產(chǎn)品的類別

          • 數(shù)據(jù)集特點(diǎn):無權(quán)重?zé)o向圖

          • 節(jié)點(diǎn)為售賣的商品,邊表示兩個(gè)商品被一同購買


          社交網(wǎng)絡(luò)(FaceBook、Twitter等)

          • 常用任務(wù):推薦算法,解決冷啟問題

          • 數(shù)據(jù)集特點(diǎn):無權(quán)重(FaceBook無向/Twitter有向)

          • 節(jié)點(diǎn)表示用戶,邊表示朋友關(guān)系


          知識圖譜

          • Freebase

            • 采用結(jié)構(gòu)化數(shù)據(jù)的形式,如,已故美國總統(tǒng)肯尼迪的條目。類似履歷表,包括出生時(shí)間、死亡時(shí)間、性別、職業(yè)、國籍、配偶等等

            • 這一套格式是固定的,所有人物條目都包含同樣的字段。這樣一來,數(shù)據(jù)之間就可以很容易地聯(lián)系在一起,為信息的查詢和處理提供了巨大的方便

          • WordNet

            • 按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。WordNet是一個(gè)覆蓋范圍寬廣的英語詞匯語義網(wǎng)


          金融風(fēng)控類 - 數(shù)據(jù)集現(xiàn)狀

          總述:

          • 圖深度學(xué)習(xí)技術(shù)應(yīng)用在風(fēng)控領(lǐng)域已經(jīng)證明是有效且必要的,但發(fā)展時(shí)間較短,整體進(jìn)程還處在發(fā)展初期階段。

          • 挑戰(zhàn):

            • 模型開發(fā)者需要面對的挑戰(zhàn):

            • 數(shù)據(jù)來源狹窄、數(shù)據(jù)格式不統(tǒng)一

            • 算法驗(yàn)證標(biāo)準(zhǔn)尚未統(tǒng)一

            • 應(yīng)用場景多樣

            • 具體業(yè)務(wù)上模型定制化程度較高

            • 缺少公開數(shù)據(jù)

          1、數(shù)據(jù):

          • 數(shù)據(jù)隔閡 &?缺少統(tǒng)一數(shù)據(jù)

          • 當(dāng)前很少有公開的風(fēng)控領(lǐng)域的圖數(shù)據(jù)能夠直接用于風(fēng)控場景的圖深度學(xué)習(xí)算法,雖然算法研究者多擁有自己的數(shù)據(jù)源,但外人幾乎接觸不到:

          • 有的互聯(lián)網(wǎng)公司,由于業(yè)務(wù)的特點(diǎn),能夠很方便接觸到海量的用戶數(shù)據(jù)(交易數(shù)據(jù)、APP下載數(shù)據(jù)、登錄/注冊數(shù)據(jù)、瀏覽/購買數(shù)據(jù)等),其中螞蟻金服較為突出。這些公司或者組織能夠很方便的基于自己現(xiàn)實(shí)業(yè)務(wù),利用現(xiàn)有數(shù)據(jù)進(jìn)行模型的構(gòu)建。

          • 但由于這些用戶數(shù)據(jù)的私密性,這些數(shù)據(jù)僅在其所有者內(nèi)部使用,外人接觸不到。這也造成業(yè)內(nèi)沒有統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行模型的對比驗(yàn)證。各家目前還是各自為營,自產(chǎn)自銷。?

          • ?–??https://bbs.huaweicloud.com/blogs/184712

          2、模型算法:

          • 當(dāng)前風(fēng)控領(lǐng)域的圖深度學(xué)習(xí)算法在不同場景下還沒有很好的統(tǒng)一性。換句話說,現(xiàn)在單個(gè)算法主要還是聚焦在較為單一的風(fēng)控場景。

          • 比如首個(gè)利用圖卷積進(jìn)行惡意賬戶識別的GEM算法主要使用于賬戶登錄/注冊場景--?Heterogeneous Graph Neural Networks for Malicious Account Detection 螞蟻金服

          • GraphConsis算法主要聚焦在賬戶的惡意/欺詐評論識別。--?Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航

          • 數(shù)據(jù)的隔閡,統(tǒng)一數(shù)據(jù)的缺少以及業(yè)務(wù)的針對性是造成模型針對面較窄的一些原因。

          • (都和我們預(yù)期的銀行金融數(shù)據(jù)不同,且螞蟻金服數(shù)據(jù)未開源)


          3??金融風(fēng)控方向GNN業(yè)界進(jìn)展

          3.1 阿里螞蟻

          由于螞蟻金服為上億級的個(gè)人用戶提供服務(wù),產(chǎn)生的金融數(shù)據(jù)從一開始就是海量且極其復(fù)雜的。即便是此前最先進(jìn)的Graph Embedding 技術(shù),處理金融級的圖結(jié)構(gòu)仍有壓力。

          自研的圖結(jié)構(gòu)處理Graph Embedding 技術(shù)?ICML 2018

          網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)】自動選擇鄰居的GNN

          • 具有自適應(yīng)接收路徑的圖神經(jīng)網(wǎng)絡(luò),自動學(xué)習(xí)對目標(biāo)節(jié)點(diǎn)貢獻(xiàn)大的鄰居進(jìn)行傳播

          • 規(guī)避惡意賬戶

          • GeniePath通過定義兩個(gè)parametric函數(shù):自適應(yīng)廣度函數(shù)、和自適應(yīng)深度函數(shù),共同對子圖進(jìn)行廣度、深度搜索。其中自適應(yīng)廣度函數(shù)限定朝哪個(gè)方向搜索重要節(jié)點(diǎn),自適應(yīng)深度函數(shù)限定搜索的深度,即是1跳鄰居信息就足夠了,還是需要多跳鄰居信息。

          • -- GeniePath: Graph Neural Networks with Adaptive Receptive Paths?螞蟻金服??CIKM, 2018

          • --?https://zhuanlan.zhihu.com/p/61134212

          • --?https://export.arxiv.org/pdf/1802.00910

          【淘寶】運(yùn)費(fèi)險(xiǎn)詐騙識別【反欺詐】

          1 什么是運(yùn)費(fèi)騙保
          • 本文在傳統(tǒng)運(yùn)費(fèi)險(xiǎn)風(fēng)控的基礎(chǔ)上,詳細(xì)介紹了螞蟻金服人工智能部如何用圖學(xué)習(xí)的方法,抓取更多的騙保行為

          • 退貨是買家常見的訴求。然而退貨的運(yùn)費(fèi)爭議巨大。為了保障買家對購物行為的“后悔權(quán)”,運(yùn)費(fèi)險(xiǎn)應(yīng)運(yùn)而生。大規(guī)模的運(yùn)費(fèi)險(xiǎn)單量,也催生了不少的騙保產(chǎn)業(yè)。

          • 購買運(yùn)費(fèi)險(xiǎn)后,在確認(rèn)收貨前,買家可以要求退貨。退貨所需要的運(yùn)費(fèi),需要承保公司來承擔(dān)。大部分的運(yùn)費(fèi)險(xiǎn),購買一單只需要幾毛錢,但退回的運(yùn)費(fèi)卻有幾塊錢。如果實(shí)際退貨沒有發(fā)生,或?qū)嶋H退貨所需運(yùn)費(fèi)成本低于保險(xiǎn)公司的賠付額,用戶可以得到數(shù)倍收益。

          • --?https://mp.weixin.qq.com/s?__biz=MzI0Nzc3MTQyMw==&mid=2247486168&idx=1&sn=fda5696ed9b4ac2c9ede9daa18c4e41c&chksm=e9abb2a8dedc3bbe8f0fd2c49b5feeee699f4eb20ad6d09c2bb35e5d8a0344a2f8c836da1c04&scene=21#wechat_redirect

          2 GeniePath算法
          • 運(yùn)費(fèi)騙保識別問題

          • 傳統(tǒng)的運(yùn)費(fèi)險(xiǎn)風(fēng)控,主要通過一組策略,在線對單個(gè)賬戶的風(fēng)險(xiǎn)等級進(jìn)行評估?;诓呗?、著眼單個(gè)賬戶,往往不能覆蓋所有的騙?;顒?;

          • 本文將重點(diǎn)放在了構(gòu)建賬戶關(guān)系網(wǎng)絡(luò)(即關(guān)系圖),用神經(jīng)網(wǎng)絡(luò)的方法,挖掘關(guān)系圖中的信息。

          • 本文將騙保識別問題,定義為一個(gè)賬戶的二分類問題,二分類的標(biāo)注來自運(yùn)費(fèi)險(xiǎn)風(fēng)控的策略。

          • 在解決這個(gè)問題的過程中,我們發(fā)現(xiàn),行為特征(購物行為、瀏覽行為等)不能有效地區(qū)分“正常賬戶”和“騙保賬戶”。這主要是因?yàn)轵_保的手段是專業(yè)的、變化的、有意遮掩的。然而,賬戶之間的關(guān)系,往往更加穩(wěn)定,更加難以隱藏。但是如何構(gòu)建賬戶之間的關(guān)系,讓“正常賬戶”和“騙保賬戶”的區(qū)分度更高呢?

          • 構(gòu)建設(shè)備共用圖:包括賬戶和設(shè)備兩種節(jié)點(diǎn),如果一個(gè)賬戶曾在某設(shè)備上登錄,則這個(gè)賬戶和設(shè)備之間就有一條邊。

          • 設(shè)備共用圖中“正常用戶”和“騙保團(tuán)伙”的關(guān)系模式區(qū)別較大。我們最終選擇了設(shè)備共用圖作為構(gòu)圖對象。

          • --?https://zhuanlan.zhihu.com/p/50531764

          • -- Who-Stole-the-Postage?Fraud Detection in Return-Freight Insurance Claims 螞蟻金服 KDD, 2018

          【支付寶】惡意賬戶識別 /?高危賬戶識別

          1 欺詐/惡意賬戶檢測

          1) 什么是惡意賬戶

          • 惡意賬戶針對在線賬戶提出,如:Gmail 提供的郵件服務(wù),微博/Twitter 提供的短消息分享服務(wù),支付寶提供的支付服務(wù)等。

          • 惡意用戶可能迅速大量地?cái)U(kuò)散垃圾廣告等信息;催生微博僵尸賬戶達(dá)到某種非法營銷、傳播目的;在金融服務(wù)領(lǐng)域,注冊大量新賬戶達(dá)到薅羊毛、洗錢、欺詐等目的。

          • 惡意賬戶具有強(qiáng)烈獲取利益傾向和團(tuán)伙性質(zhì),往往是通過批量、低成本注冊的賬戶。

          2) 惡意賬戶的特點(diǎn)

          1.設(shè)備聚集性:見下圖所示。兩張圖分別展示了用戶(縱軸)過去是否在設(shè)備(橫軸)有過登錄行為。藍(lán)色點(diǎn)代表該用戶過去有在某設(shè)備上登錄過。從圖中可以看出,左圖 pattern 較為均勻,右圖則完全不同,可以看到極為有規(guī)律和稠密的 pattern。這說明,黑產(chǎn)賬戶更傾向于在設(shè)備(媒介)的聯(lián)通上有著高聚集性。

          左圖是正常賬戶特征,右圖是惡意賬戶特征

          2.時(shí)間聚集性:見下圖所示。兩張圖分別展示了賬戶(縱軸)在時(shí)間(橫軸)上的行為序列。其中藍(lán)點(diǎn)代表登錄行為。從左圖可以看出,正常賬戶在注冊之后,每天會有均勻的登錄 pattern,右圖中的黑產(chǎn)賬戶則只在某個(gè)時(shí)間段內(nèi)集中達(dá)成某種行為,這種 pattern 我們稱之為時(shí)間聚集性。

          左圖是正常賬戶特征,右圖是惡意賬戶特征

          • 小結(jié):這兩種特征是黑產(chǎn)賬戶所固有形成的。即,這些黑產(chǎn)受利益所驅(qū)動而無法繞開這些模式(只要能準(zhǔn)確捕獲黑產(chǎn)賬戶之間共享的設(shè)備信息,這里的設(shè)備不限于某一個(gè)手機(jī)、某一個(gè)IP地址,可以認(rèn)為是一種媒介)。

          • 因此,我們針對這些數(shù)據(jù)特點(diǎn)設(shè)計(jì)了基于圖的神經(jīng)網(wǎng)絡(luò)算法識別黑產(chǎn)賬戶。

          2 GEM算法,世界上已知的首個(gè)利用圖卷積進(jìn)行惡意賬戶識別
          • 基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的惡意賬戶識別方法,主要使用于賬戶登錄/注冊場景

          • 在線賬戶伴隨著(移動)互聯(lián)網(wǎng)的誕生而產(chǎn)生,在金融服務(wù)領(lǐng)域,這種通過批量、低成本注冊的惡意賬戶的存在是十分危險(xiǎn)的。

          • 該方法是支付寶為保障體系內(nèi)賬戶安全,降低惡意賬戶帶來的資損,保障支付體系健康,在人工智能領(lǐng)域所做的努力和嘗試。

          • 傳統(tǒng)聯(lián)通子圖方法:

            • 建立多個(gè)賬戶-設(shè)備二部圖,由于設(shè)備聚集性,我們可以計(jì)算每個(gè)聯(lián)通子圖的節(jié)點(diǎn)數(shù)目,每個(gè)賬戶的危害程度取決于該節(jié)點(diǎn)所在聯(lián)通子圖的節(jié)點(diǎn)數(shù)目。

            • 該方法可以準(zhǔn)確識別那些設(shè)備聚集度特別高的黑產(chǎn)賬戶。但是對于設(shè)備聚集程度一般或較低的賬戶,很難做出準(zhǔn)確區(qū)分。

          • 圖神經(jīng)網(wǎng)絡(luò)方法:

            • 構(gòu)建異構(gòu)圖,包括賬戶類節(jié)點(diǎn),以及多種類型的設(shè)備信息,如:電話、MAC、IMSI 以及其他 ID。

            • 為每個(gè)賬戶加入時(shí)間上的行為特征 X ∈ RN,P。其中每行 Xi 表示節(jié)點(diǎn)(賬戶或設(shè)備)在時(shí)間上的行為特征。我們希望構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)到通過設(shè)備聚集在一起的賬戶在行為特征上的模式,從而更準(zhǔn)確的做出判別。

          • 模型設(shè)計(jì)

            • 模型認(rèn)為是GCN的變體,在于:1.擴(kuò)展到異構(gòu)網(wǎng)絡(luò); 2.由于聚集性模式,對不同類型的圖??使用“sum”算子進(jìn)行聚合操作,同時(shí)對不同設(shè)備圖平均操作。

            • 相比GCN只能處理同質(zhì)網(wǎng)絡(luò),GEM 處理原始的異構(gòu)網(wǎng)絡(luò),信息會有所保留, 另外對每種類型節(jié)點(diǎn)使用“聚合”運(yùn)算操作,而不是normalized 操作。

            • GEM-attention 因?yàn)榭紤]不同設(shè)備的權(quán)重,而不是等同對待。

          • https://zhuanlan.zhihu.com/p/48243724

          • https://zhuanlan.zhihu.com/p/59666737

          • --?Heterogeneous Graph Neural Networks for Malicious Account Detection 螞蟻金服?CIKM, 2018

            【螞蟻金服信貸】貸款違約預(yù)測

            • ST-GNN(Spatial-Temporal aware Graph Neural Network)的圖神經(jīng)網(wǎng)絡(luò)對這個(gè)集合進(jìn)行建模,從而獲取到圖中每個(gè)節(jié)點(diǎn)的embedding用于下游任務(wù)

            • 貸款違約預(yù)測和鏈接預(yù)測(預(yù)測兩個(gè)節(jié)點(diǎn)之間是否存在邊)

            • 利用供應(yīng)鏈網(wǎng)絡(luò)預(yù)測金融風(fēng)險(xiǎn),利用圖神經(jīng)網(wǎng)絡(luò)建模供應(yīng)鏈網(wǎng)絡(luò)預(yù)測貸款違約

            • 本文針對中小企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)分析中數(shù)據(jù)不足的問題,提出了一種基于圖的供應(yīng)鏈挖掘的財(cái)務(wù)風(fēng)險(xiǎn)分析框架。

            • 具體來說,為了獲取中小企業(yè)信用相關(guān)的拓?fù)浣Y(jié)構(gòu)和時(shí)間變化信息,我們設(shè)計(jì)并使用一種新的時(shí)空感知圖神經(jīng)網(wǎng)絡(luò),在中小企業(yè)圖上挖掘供應(yīng)鏈關(guān)系,然后基于挖掘的供應(yīng)鏈圖分析信用風(fēng)險(xiǎn)。在真實(shí)金融數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了我們提出的中小企業(yè)金融風(fēng)險(xiǎn)分析方案的有效性。

            • (如圖:服裝工廠的供應(yīng)鏈 |?供應(yīng)鏈網(wǎng)絡(luò)是隨時(shí)間變化的,所以可以表示成 T?個(gè)時(shí)刻的快照集合

            • 模型設(shè)計(jì):

              • 對于時(shí)刻的快照,用類似圖注意力網(wǎng)絡(luò)的方法聚合節(jié)點(diǎn)的周圍節(jié)點(diǎn)和邊的信息,不同之處在于這里因?yàn)槎嗔诉叺男畔?/span>。重復(fù)次,每個(gè)時(shí)刻快照上的節(jié)點(diǎn)都會獲得一個(gè)聚合了圖結(jié)構(gòu)信息的新表示。

              • 有了每個(gè)時(shí)刻圖上節(jié)點(diǎn)的表示,文章利用類似LSTM的方式來獲取這些節(jié)點(diǎn)的時(shí)序信息。可以獲得每一個(gè)節(jié)點(diǎn)在每個(gè)時(shí)刻融合了時(shí)序信息的節(jié)點(diǎn)表示, 結(jié)合上面獲得,文章最后使用了一個(gè)注意力機(jī)制綜合這兩種表示,獲得每個(gè)節(jié)點(diǎn)的最終表示。

            • 之后文章在螞蟻金服的信貸數(shù)據(jù)上做了貸款違約預(yù)測(鏈接預(yù)測:預(yù)測兩個(gè)節(jié)點(diǎn)之間是否存在邊)的任務(wù),證實(shí)了模型的有效性。

            • --?https://zhuanlan.zhihu.com/p/348060075

            • --?Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining?螞蟻金服 IJCAI, 2020

            【GNN框架】

            • 在包含數(shù)十億用戶和產(chǎn)品的網(wǎng)絡(luò)上。支持高效的分布式圖存儲,對采樣過程進(jìn)行了優(yōu)化,同時(shí)內(nèi)部集成了很多GNN模型。該框架已成功用于公司的多種產(chǎn)品推薦和個(gè)性化搜索任務(wù)。

            • -- AliGraph: A Comprehensive Graph Neural Network Platform

            • https://arxiv.org/abs/1902.08730


            3.2 IBM【比特幣洗錢識別】

            • 使用GCN算法識別比特幣反洗錢

            • 節(jié)點(diǎn)表示交易的實(shí)體,邊表示比特幣的交易流,其數(shù)據(jù)共計(jì)203,769筆節(jié)點(diǎn)交易以及234,355條邊。

            • 使用模型

              • 基于GCN的半監(jiān)督學(xué)習(xí)

              • Skip-GCN:多了一個(gè)“skip”變量,即將節(jié)點(diǎn)輸入特征X和網(wǎng)絡(luò)embedding特征共同進(jìn)行學(xué)習(xí),其好處是相當(dāng)于在GCN中增加了一個(gè)LR的結(jié)構(gòu)。

              • EvolveGCN:GCN的時(shí)間模型是EvolveGCN,詳見《EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs》,捕捉圖的動態(tài)變化

            • https://zhuanlan.zhihu.com/p/85348013

            • --?Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics, 2019


            3.3 北航【互聯(lián)網(wǎng)評論欺詐】

            • GraphConsis算法

            • 賬戶的惡意/欺詐評論識別

            • 本文主要通過鄰居節(jié)點(diǎn)距離進(jìn)行均衡采樣優(yōu)化,來針對風(fēng)控場景的一些Inconsistency問題。

            • 1. Inconsistency?定義

              • Context Inconsistency:a. frauder 會通過建立正常連接來偽裝 b. 正樣本數(shù)量少

              • Feature Inconsistency:?節(jié)點(diǎn)特征差異性可能很大

              • Relation Inconsistency:?存在不同類型的邊會造成影響

            • 2.?解決方案

              • 通過引入可訓(xùn)練的Context Embedding,補(bǔ)充節(jié)點(diǎn)特征,?解決Context Inconsistency

              • 通過節(jié)點(diǎn)特征相似度,過濾低相似度節(jié)點(diǎn),提高采樣樣本中的節(jié)點(diǎn)特征一致性

              • 通過Attention,對不同邊類型的鄰居節(jié)點(diǎn)增加權(quán)重影響

            • https://zhuanlan.zhihu.com/p/385173898

            • --?Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航


            4??其他方向進(jìn)展

            4.1 Uber Eats【餐廳推薦】

            • 使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行產(chǎn)品推薦。典型的做法是對用戶和商品的交互關(guān)系進(jìn)行建模,然后通過某種負(fù)采樣損失學(xué)習(xí)節(jié)點(diǎn)嵌入,并通過kNN實(shí)時(shí)推薦給用戶相似產(chǎn)品。Uber Eats?公司很早就通過這樣的方式進(jìn)行產(chǎn)品推薦,具體而言,他們使用圖神經(jīng)網(wǎng)絡(luò)?GraphSage?為用戶推薦食品和餐廳。

            • -- https://eng.uber.com/uber-eats-graph-learning/

            • --?Food Discovery with Uber Eats: Using Graph Learning to Power Recommendations

            4.2 網(wǎng)易音樂【音樂推薦】

            • 通過圖神經(jīng)網(wǎng)絡(luò),挖掘用戶的特征、歌曲的特征、用戶對歌曲的行為特征,實(shí)現(xiàn)精準(zhǔn)的音樂推薦。

            • 圖中每個(gè)節(jié)點(diǎn)都具有結(jié)構(gòu)信息,如果用戶頻繁訂閱某種類別音樂或?qū)δ撤N類別音樂評分較高,那么系統(tǒng)就可以認(rèn)定該用戶對該類音樂比較感興趣,就可以向該用戶推薦更多該類別的音樂。

            • --?https://zhuanlan.zhihu.com/p/442309107

            4.3 滴滴【車輛調(diào)控管理】

            • 滴滴出行研究了一種基于時(shí)空多圖卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)約車需求量預(yù)測模型。

            • 通過分析區(qū)域之間復(fù)雜的時(shí)空依賴關(guān)系,對網(wǎng)約車需求量進(jìn)行準(zhǔn)確預(yù)測,指導(dǎo)車輛的調(diào)度,提高車輛的利用率,減少等待時(shí)間,并在一定程度上緩解了交通的擁堵。

            • --?Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

            4.4 阿里

            【廣告推薦】

            • 搜索廣告匹配

            • 阿里媽媽利用圖神經(jīng)網(wǎng)絡(luò),從用戶行為日志、內(nèi)容屬性等不同維度挖掘 Query(查詢詞)、Item(商品)和 Ad(廣告)的多種關(guān)系。

            • 對于在線請求場景,通過計(jì)算用戶查詢詞向量、前置行為中節(jié)點(diǎn)向量和廣告節(jié)點(diǎn)向量之間的距離進(jìn)行高效的向量化最近鄰檢索,從而快速匹配到符合用戶意圖的廣告并推薦給用戶。

            【淘寶推薦】

            • 一篇關(guān)于結(jié)合知識圖譜應(yīng)用于大規(guī)模推薦的論文,成功應(yīng)用于線上淘寶APP場景且有明顯提升,推薦一讀。

            • 當(dāng)前基于KG的推薦方法可以分為兩類:基于Path和基于GNN的方法。

            • 基于Path的方法通過探索目標(biāo)user-item對在KG上的多個(gè)meta-path來預(yù)測用戶偏好。這是一種典型需要domain knowledge的方法,而且忽略了KG中豐富的結(jié)構(gòu)信息,因此不能充分刻畫給定user和item內(nèi)在的關(guān)系。

            • -- ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation?SIGIR, 2020

            • https://blog.csdn.net/abcdefg90876/article/details/106893937/

            【推薦系統(tǒng)】

            4.5 Fabula?AI【假新聞檢測】

            • 倫敦的初創(chuàng)公司Fabula?AI,使用GNN檢測假新聞等

            • https://arxiv.org/abs/1902.06673

            4.6 Comodo 科摩多【惡意應(yīng)用識別】

            通過構(gòu)建HIN抽關(guān)系特征,對安卓智能手機(jī)中的惡意應(yīng)用進(jìn)行識別。

            • 實(shí)體:APP,API

            • 關(guān)系:

            • 1)Package關(guān)系(API-API):API 共用package,用矩陣P表示

            • 2)CodeBlock關(guān)系(API-API): API 共用code block,用矩陣B表示

            • 3)InvokeMethod關(guān)系(API-API): API 共用invoke方法,用矩陣I表示

            • 4)Contain關(guān)系(APP-API):APP使用API,用矩陣A表示

            • --?HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network?KDD?2017


            5??其他相關(guān)&參考資料

            SIGIR2020推薦系統(tǒng)論文一覽:https://zhuanlan.zhihu.com/p/159742956

            圖數(shù)據(jù)庫:https://zhuanlan.zhihu.com/p/210074511

            圖計(jì)算在網(wǎng)易游戲中的應(yīng)用:https://zhuanlan.zhihu.com/p/370433730

            *2021年,GNN+推薦系統(tǒng)/CV/物理/化學(xué):https://blog.csdn.net/BAAIBeijing/article/details/112691028

            *GNN 圖神經(jīng)網(wǎng)絡(luò) 2021 年的5大應(yīng)用熱點(diǎn):https://zhuanlan.zhihu.com/p/346895359

            *工業(yè)向反欺詐算法論文及解讀匯總:https://zhuanlan.zhihu.com/p/85155064

            *開源分布式圖數(shù)據(jù)庫:https://zhuanlan.zhihu.com/p/152399147

            • 螞蟻金服:GeaBase[1]
              金融級圖數(shù)據(jù)庫,通過自定義類語言為業(yè)務(wù)方提供服務(wù),全量計(jì)算下推,提供毫秒級延時(shí)。主要應(yīng)用于以下場景:

              金融風(fēng)控場景:萬億級邊資金網(wǎng)絡(luò),存儲實(shí)時(shí)交易信息,實(shí)時(shí)欺詐檢測。

            • 推薦場景:股票證券推薦。

            • 螞蟻森林:萬億級的圖存儲能力,低延時(shí)強(qiáng)一致關(guān)系數(shù)據(jù)查詢更新。

            • GNN:用于小時(shí)級 GNN 訓(xùn)練。嘗試動態(tài)圖 GNN 在線推理。

            • 阿里巴巴:iGraph[2]

            • iGraph 是圖索引及查詢系統(tǒng),存儲用戶的行為信息,是阿里數(shù)據(jù)中臺四駕馬車之一。通過 Gremlin 語言為業(yè)務(wù)方提供電商圖譜實(shí)時(shí)查詢。

            • 今日頭條:ByteGraph[3]?

            • ByteGraph 通過在 kv 上增加統(tǒng)一 cache 層,關(guān)系數(shù)據(jù)拆分為 B+ 樹以應(yīng)對高效的邊訪問和采樣,類似 Facebook 的 TAO 。

            • 騰訊高性能分布式圖計(jì)算框架柏拉圖[4]?

            以上文中灰色鏈接部分也屬于參考文獻(xiàn),此處不再贅述



            瀏覽 180
            點(diǎn)贊
            評論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            評論
            圖片
            表情
            推薦
            點(diǎn)贊
            評論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            <kbd id="afajh"><form id="afajh"></form></kbd>
            <strong id="afajh"><dl id="afajh"></dl></strong>
              <del id="afajh"><form id="afajh"></form></del>
                  1. <th id="afajh"><progress id="afajh"></progress></th>
                    <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    中文字幕在线字幕中文乱码区别 | 天天干天天爱天天爽 | 国产小电影在线观看 | 123操逼逼 | 日韩一区二区视频在线观看 |