綜述 | GNN金融風(fēng)控領(lǐng)域業(yè)界進(jìn)展調(diào)研
前言:
本文重點(diǎn):
工業(yè)界 金融欺詐風(fēng)控領(lǐng)域上?GNN的應(yīng)用及進(jìn)展
注:
本文僅針對 可用「深度圖神經(jīng)網(wǎng)絡(luò)解決」的 - 「金融風(fēng)控」相關(guān)的任務(wù)論文
「除深度圖神經(jīng)網(wǎng)絡(luò)之外,業(yè)界常用經(jīng)典圖算法」 &?「除金融欺詐風(fēng)控領(lǐng)域之外,常見推薦等任務(wù)」 & 「圖數(shù)據(jù)庫存儲方式」會順帶提及,但本文不會詳細(xì)講解
前置知識:
目錄
前言
1??WHY GNN
GNN 的核心
未來的研究方向
圖神經(jīng)網(wǎng)絡(luò)框架
GNN相關(guān)的一些開源平臺
2??圖數(shù)據(jù)集選取條件
現(xiàn)有開源數(shù)據(jù)集
金融風(fēng)控類 - 數(shù)據(jù)集現(xiàn)狀
3??金融風(fēng)控方向GNN進(jìn)展
阿里螞蟻
【網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)】自動選擇鄰居的GNN
【淘寶】運(yùn)費(fèi)險(xiǎn)詐騙識別「反欺詐」
運(yùn)費(fèi)騙保
GeniePath算法
【支付寶】惡意賬戶識別 /?高危賬戶識別
欺詐/惡意賬戶檢測
GEM算法,世界上已知的首個(gè)利用圖卷積進(jìn)行惡意賬戶識別
【螞蟻金服信貸】貸款違約預(yù)測
【GNN框架】
IBM
【比特幣洗錢識別】
北航
【互聯(lián)網(wǎng)評論欺詐】
GNN業(yè)界進(jìn)展
4??其他方向進(jìn)展
阿里
【廣告推薦】
【淘寶推薦】
【推薦系統(tǒng)】
Uber Eats
【餐廳推薦】
網(wǎng)易音樂
【音樂推薦】
滴滴
【車輛調(diào)控管理】
Fabula?AI
【假新聞檢測】
Comodo 科摩多
【惡意應(yīng)用識別】
5??其他相關(guān)&參考資料
1??WHY GNN
非歐空間需要GNN來解決:
當(dāng)前,深度學(xué)習(xí)技術(shù)已經(jīng)在語音識別、機(jī)器翻譯、圖像分析和計(jì)算機(jī)視覺等方向取得了重要成果
? 歐氏空間:音頻 / 自然語言(1D)、圖像(2D)、視頻(3D)
? 非歐空間:社交網(wǎng)絡(luò)數(shù)據(jù)、生物化學(xué)圖結(jié)構(gòu)、引文網(wǎng)絡(luò)等
“圖結(jié)構(gòu)”的分類
有向 / 無向(邊)
有權(quán) / 無權(quán)(邊)
有特征 / 無特征(節(jié)點(diǎn)?/ 邊)
同構(gòu) / 異購(節(jié)點(diǎn) / 邊)

Attributed:考慮節(jié)點(diǎn)性質(zhì),如用戶性別、年齡、購買力等
Multiplex:多重邊,節(jié)點(diǎn)之間可能有多種關(guān)系,比如說兩個(gè)用戶之間可能為好友、同學(xué)、交易關(guān)系等;用戶和item之間可以瀏覽、點(diǎn)擊、添加到購物車、購買等
Heterogeneous:異構(gòu),節(jié)點(diǎn)和邊有多種類型,節(jié)點(diǎn)類型+邊類型>2
-- Representation Learning for Attributed Multiplex Heterogeneous Network ?阿里異構(gòu)Embedding?GATNE
GNN 的核心
就是 information diffusion mechanism / message passing。
其核心就是要在相互連接的節(jié)點(diǎn)之間交換信息,即需要迭代地更新節(jié)點(diǎn)的表示,每一次更新,每個(gè)節(jié)點(diǎn)上的信息都和相鄰節(jié)點(diǎn)做一定的交互。
這兩類都通過一個(gè)參數(shù)化表示的深度學(xué)習(xí)模塊來做這樣的信息交換:在 RecGNN 中, 每一步信息交換的變換函數(shù)都是一樣的,并且目標(biāo)是做很多次這樣的信息交換直到每個(gè)節(jié)點(diǎn)上的特征都達(dá)到穩(wěn)態(tài);在 ConvGNN 中,每一步信息交換的函數(shù)都不一樣,并且只經(jīng)過有限步的信息交換。這一點(diǎn)區(qū)別如下圖所示。
對于 graph-level 的任務(wù)來說,還需要從圖上每個(gè)節(jié)點(diǎn)把信息聚合起來,這就涉及到很多 pooling 的技術(shù)。

圖神經(jīng)網(wǎng)絡(luò)的基本思想:
圖神經(jīng)網(wǎng)絡(luò)的基本思想,就是基于節(jié)點(diǎn)的局部鄰居信息對節(jié)點(diǎn)進(jìn)行embedding。
直觀來講,就是通過神經(jīng)網(wǎng)絡(luò)來聚合每個(gè)節(jié)點(diǎn)及其周圍節(jié)點(diǎn)的信息。
算法思想是基于節(jié)點(diǎn)的局部鄰居及其自身特征信息對節(jié)點(diǎn)進(jìn)行表示學(xué)習(xí)(Node Representation Learning)。
本質(zhì)上是通過神經(jīng)網(wǎng)絡(luò)對聚合節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)的特征信息做非線性變換。
圖神經(jīng)網(wǎng)絡(luò)有很多變種,可以從圖的類型、訓(xùn)練方法和傳播步驟等多方面進(jìn)行變種分類。
圖上的學(xué)習(xí)任務(wù)
1、圖節(jié)點(diǎn)分類任務(wù):圖中每個(gè)節(jié)點(diǎn)都有對應(yīng)的特征,當(dāng)我們已知一些節(jié)點(diǎn)的類別的時(shí)候,可以設(shè)計(jì)分類任務(wù)針對未知節(jié)點(diǎn)進(jìn)行分類
2、圖邊結(jié)構(gòu)預(yù)測任務(wù):圖中的節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊關(guān)系可能在輸入數(shù)據(jù)中能夠采集到,而有些隱藏的邊需要我們挖掘出來。就是對邊的預(yù)測任務(wù),節(jié)點(diǎn)和節(jié)點(diǎn)之間關(guān)系的預(yù)測。
3、圖的分類:對于整個(gè)圖來說,我們也可以對圖分類?;舅悸肥菍D中節(jié)點(diǎn)的特征聚合起來作為圖的特征,再進(jìn)行分類。
另:
一般在圖中尋找子團(tuán)的任務(wù)為社群檢測(Community Detection)或者叫作高密子圖挖掘(Dense Subgraph Mining)
算法不斷刪除節(jié)點(diǎn)使得剩下的節(jié)點(diǎn)構(gòu)成的社區(qū)可疑度最大,然后記錄整個(gè)刪除過程中社區(qū)可疑度最大的那一輪,那么該輪的剩余節(jié)點(diǎn)構(gòu)成的子圖就是最可疑的。
針對固定問題使用固定算法,如FRAUDAR?算法自動化地挖掘出二部圖里的高密子圖,較少用GNN解決
https://zhuanlan.zhihu.com/p/45625323
學(xué)習(xí)任務(wù)的應(yīng)用
圖神經(jīng)網(wǎng)絡(luò)在文本分類(Text classification)
序列標(biāo)注(Sequence labeling)
神經(jīng)機(jī)器翻譯(Neural machine translation)
關(guān)系抽取(Relation extraction)
事件抽?。‥vent extraction)
圖像分類(Image Classification)
視覺推理(Visual Reasoning)
語義分割(Semantic Segmentation)
等等
領(lǐng)域應(yīng)用:
風(fēng)控領(lǐng)域、推薦系統(tǒng)(社交網(wǎng)絡(luò) / 電商推薦)、生物醫(yī)療等等
未來的研究方向
如何有效地提升模型復(fù)雜度:因?yàn)?convolution 層變多時(shí),各個(gè)節(jié)點(diǎn)的特征將會變得越來越接近,加多層數(shù)最后會使得所有的點(diǎn)上的特征都變成一樣的,因此不能單獨(dú)靠把模型做深來提高模型復(fù)雜度。
如何提高模型的拓展性:當(dāng)圖的規(guī)模變得特別大時(shí),就需要考慮如何來對圖進(jìn)行聚合并且盡量不要丟失圖上的信息。有兩種思路:sampling 可能會使得節(jié)點(diǎn)丟失一些很關(guān)鍵的鄰居;clustering 可能會使得圖丟失一些比較特別的結(jié)構(gòu)模式。
如何融合異源數(shù)據(jù):真實(shí)應(yīng)用場景中,圖可能會有不同類型的節(jié)點(diǎn)、連邊,如何處理這些數(shù)據(jù)也將成為一個(gè)研究方向。
如何處理動態(tài)的圖:就像 STGNN 中所做的事情一樣。
圖神經(jīng)網(wǎng)絡(luò)框架
幾種當(dāng)下最為廣泛的圖神經(jīng)網(wǎng)絡(luò)框架
1、Deep Graph Library(DGL)
DGL采用了基于「消息傳遞」的編程模型
消息傳遞是圖計(jì)算的經(jīng)典編程模型。
DGL已經(jīng)支持PyTorch、MXNet和TensorFlow作為其后端。
2、PyTorch Geometric(PyG)
PyG目前支持大量常見基準(zhǔn)數(shù)據(jù)集
基于PyTorch的幾何深度學(xué)習(xí)擴(kuò)展庫
3、Ant Graph machine Learning system(AGL)
由阿里的螞蟻金服團(tuán)隊(duì)推出的大規(guī)模圖機(jī)器學(xué)習(xí)系統(tǒng)
????????同時(shí)支持TensorFlow 1.x和2.x的圖神經(jīng)網(wǎng)絡(luò)框架
5、PGL
GNN相關(guān)的一些開源平臺
1、Deep Graph Library(DGL)
DGL由紐約大學(xué)、紐約大學(xué)上海分校、AWS上海研究所和AWS MXNet科學(xué)小組開發(fā)和維護(hù)GNN平臺。開始時(shí)間: 2018.
地址:https://www.dgl.ai/,
github地址:?https://github.com/jermainewang/dgl
2、NGra
NGra是由北京大學(xué)和微軟亞洲研究院開發(fā)和維護(hù)一款GNN平臺。開始時(shí)間:2018。
地址:https://arxiv.org/pdf/1810.08403.pdf
3、Graph_nets
Graph_nets是由DeepMind, Google Corp開發(fā)和維護(hù)的。開始時(shí)間:2018
地址:?https://github.com/deepmind/graph_nets
4、Euler
Euler是一款由阿里巴巴旗下的阿里媽媽開源的GNN平臺。開始時(shí)間:2019
地址:?https://github.com/alibaba/euler
5、PyTorch Geometric
PyTorch Geometric由德國杜特蒙德大學(xué)開發(fā)和維護(hù)的GNN平臺。開始時(shí)間:2019
地址:https://github.com/rusty1s/pytorch_geometric
論文:https://arxiv.org/abs/1903.02428?context=cs.LG
6、PyTorch-BigGraph(PBG)
PBG是由Facebook人工智能研究開發(fā)和維護(hù)的GNN平臺。
開始時(shí)間:2019
地址:?https://github.com/facebookresearch/PyTorch-BigGraph
論文:https://arxiv.org/abs/1903.12287
2??圖數(shù)據(jù)集選取條件
圖數(shù)據(jù)集的選擇:
關(guān)系型數(shù)據(jù),復(fù)雜網(wǎng)絡(luò)
圖(graph)是一種數(shù)據(jù)結(jié)構(gòu),常見的圖結(jié)構(gòu)由節(jié)點(diǎn)(node)和邊(edge)構(gòu)成,節(jié)點(diǎn)包含了實(shí)體(entity)信息,邊包含實(shí)體間的關(guān)系(relation)信息。
「節(jié)點(diǎn)」和「邊」必需,節(jié)點(diǎn)屬性/類別 &?邊權(quán)重/類別 可選(異構(gòu))
本次調(diào)研要求領(lǐng)域:
金融風(fēng)控?> 電商網(wǎng)絡(luò) > 社交網(wǎng)絡(luò)
現(xiàn)有開源數(shù)據(jù)集
已有大規(guī)模公開數(shù)據(jù)集
斯坦福大學(xué):
https://snap.stanford.edu/data/(大型社交、信息網(wǎng)絡(luò)。包括:圖分類數(shù)據(jù)庫、社交網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、亞馬遜網(wǎng)絡(luò)等
可用:社交網(wǎng)絡(luò) /?亞馬遜電商數(shù)據(jù)
https://ogb.stanford.edu/(三種圖任務(wù)上的真實(shí)基準(zhǔn)數(shù)據(jù)集,同時(shí)提供數(shù)據(jù)加載器和評估器(PyTorch)
可用:亞馬遜電商數(shù)據(jù)?
-- –?https://blog.csdn.net/lj2048/article/details/106575412/
-- ?–?https://www.pianshen.com/article/71231875410/
亞馬遜電商網(wǎng)絡(luò)
常用任務(wù):節(jié)點(diǎn)分類,預(yù)測產(chǎn)品的類別
數(shù)據(jù)集特點(diǎn):無權(quán)重?zé)o向圖
節(jié)點(diǎn)為售賣的商品,邊表示兩個(gè)商品被一同購買
社交網(wǎng)絡(luò)(FaceBook、Twitter等)
常用任務(wù):推薦算法,解決冷啟問題
數(shù)據(jù)集特點(diǎn):無權(quán)重(FaceBook無向/Twitter有向)
節(jié)點(diǎn)表示用戶,邊表示朋友關(guān)系
知識圖譜
Freebase
采用結(jié)構(gòu)化數(shù)據(jù)的形式,如,已故美國總統(tǒng)肯尼迪的條目。類似履歷表,包括出生時(shí)間、死亡時(shí)間、性別、職業(yè)、國籍、配偶等等
這一套格式是固定的,所有人物條目都包含同樣的字段。這樣一來,數(shù)據(jù)之間就可以很容易地聯(lián)系在一起,為信息的查詢和處理提供了巨大的方便
WordNet
按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。WordNet是一個(gè)覆蓋范圍寬廣的英語詞匯語義網(wǎng)
金融風(fēng)控類 - 數(shù)據(jù)集現(xiàn)狀
總述:
圖深度學(xué)習(xí)技術(shù)應(yīng)用在風(fēng)控領(lǐng)域已經(jīng)證明是有效且必要的,但發(fā)展時(shí)間較短,整體進(jìn)程還處在發(fā)展初期階段。
挑戰(zhàn):
模型開發(fā)者需要面對的挑戰(zhàn):
數(shù)據(jù)來源狹窄、數(shù)據(jù)格式不統(tǒng)一
算法驗(yàn)證標(biāo)準(zhǔn)尚未統(tǒng)一
應(yīng)用場景多樣
具體業(yè)務(wù)上模型定制化程度較高
缺少公開數(shù)據(jù)
1、數(shù)據(jù):
數(shù)據(jù)隔閡 &?缺少統(tǒng)一數(shù)據(jù)
當(dāng)前很少有公開的風(fēng)控領(lǐng)域的圖數(shù)據(jù)能夠直接用于風(fēng)控場景的圖深度學(xué)習(xí)算法,雖然算法研究者多擁有自己的數(shù)據(jù)源,但外人幾乎接觸不到:
有的互聯(lián)網(wǎng)公司,由于業(yè)務(wù)的特點(diǎn),能夠很方便接觸到海量的用戶數(shù)據(jù)(交易數(shù)據(jù)、APP下載數(shù)據(jù)、登錄/注冊數(shù)據(jù)、瀏覽/購買數(shù)據(jù)等),其中螞蟻金服較為突出。這些公司或者組織能夠很方便的基于自己現(xiàn)實(shí)業(yè)務(wù),利用現(xiàn)有數(shù)據(jù)進(jìn)行模型的構(gòu)建。
但由于這些用戶數(shù)據(jù)的私密性,這些數(shù)據(jù)僅在其所有者內(nèi)部使用,外人接觸不到。這也造成業(yè)內(nèi)沒有統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行模型的對比驗(yàn)證。各家目前還是各自為營,自產(chǎn)自銷。?
?–?–?https://bbs.huaweicloud.com/blogs/184712
2、模型算法:
當(dāng)前風(fēng)控領(lǐng)域的圖深度學(xué)習(xí)算法在不同場景下還沒有很好的統(tǒng)一性。換句話說,現(xiàn)在單個(gè)算法主要還是聚焦在較為單一的風(fēng)控場景。
比如首個(gè)利用圖卷積進(jìn)行惡意賬戶識別的GEM算法主要使用于賬戶登錄/注冊場景。--?Heterogeneous Graph Neural Networks for Malicious Account Detection 螞蟻金服
GraphConsis算法主要聚焦在賬戶的惡意/欺詐評論識別。--?Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航
數(shù)據(jù)的隔閡,統(tǒng)一數(shù)據(jù)的缺少以及業(yè)務(wù)的針對性是造成模型針對面較窄的一些原因。
(都和我們預(yù)期的銀行金融數(shù)據(jù)不同,且螞蟻金服數(shù)據(jù)未開源)
3??金融風(fēng)控方向GNN業(yè)界進(jìn)展
3.1 阿里螞蟻
由于螞蟻金服為上億級的個(gè)人用戶提供服務(wù),產(chǎn)生的金融數(shù)據(jù)從一開始就是海量且極其復(fù)雜的。即便是此前最先進(jìn)的Graph Embedding 技術(shù),處理金融級的圖結(jié)構(gòu)仍有壓力。
自研的圖結(jié)構(gòu)處理Graph Embedding 技術(shù)?ICML 2018
【網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)】自動選擇鄰居的GNN
具有自適應(yīng)接收路徑的圖神經(jīng)網(wǎng)絡(luò),自動學(xué)習(xí)對目標(biāo)節(jié)點(diǎn)貢獻(xiàn)大的鄰居進(jìn)行傳播
規(guī)避惡意賬戶
GeniePath通過定義兩個(gè)parametric函數(shù):自適應(yīng)廣度函數(shù)、和自適應(yīng)深度函數(shù),共同對子圖進(jìn)行廣度、深度搜索。其中自適應(yīng)廣度函數(shù)限定朝哪個(gè)方向搜索重要節(jié)點(diǎn),自適應(yīng)深度函數(shù)限定搜索的深度,即是1跳鄰居信息就足夠了,還是需要多跳鄰居信息。
-- GeniePath: Graph Neural Networks with Adaptive Receptive Paths?螞蟻金服??CIKM, 2018
--?https://zhuanlan.zhihu.com/p/61134212
--?https://export.arxiv.org/pdf/1802.00910
【淘寶】運(yùn)費(fèi)險(xiǎn)詐騙識別【反欺詐】
1 什么是運(yùn)費(fèi)騙保
本文在傳統(tǒng)運(yùn)費(fèi)險(xiǎn)風(fēng)控的基礎(chǔ)上,詳細(xì)介紹了螞蟻金服人工智能部如何用圖學(xué)習(xí)的方法,抓取更多的騙保行為
退貨是買家常見的訴求。然而退貨的運(yùn)費(fèi)爭議巨大。為了保障買家對購物行為的“后悔權(quán)”,運(yùn)費(fèi)險(xiǎn)應(yīng)運(yùn)而生。大規(guī)模的運(yùn)費(fèi)險(xiǎn)單量,也催生了不少的騙保產(chǎn)業(yè)。
購買運(yùn)費(fèi)險(xiǎn)后,在確認(rèn)收貨前,買家可以要求退貨。退貨所需要的運(yùn)費(fèi),需要承保公司來承擔(dān)。大部分的運(yùn)費(fèi)險(xiǎn),購買一單只需要幾毛錢,但退回的運(yùn)費(fèi)卻有幾塊錢。如果實(shí)際退貨沒有發(fā)生,或?qū)嶋H退貨所需運(yùn)費(fèi)成本低于保險(xiǎn)公司的賠付額,用戶可以得到數(shù)倍收益。
2 GeniePath算法
運(yùn)費(fèi)騙保識別問題
傳統(tǒng)的運(yùn)費(fèi)險(xiǎn)風(fēng)控,主要通過一組策略,在線對單個(gè)賬戶的風(fēng)險(xiǎn)等級進(jìn)行評估?;诓呗?、著眼單個(gè)賬戶,往往不能覆蓋所有的騙?;顒?;
本文將重點(diǎn)放在了構(gòu)建賬戶關(guān)系網(wǎng)絡(luò)(即關(guān)系圖),用神經(jīng)網(wǎng)絡(luò)的方法,挖掘關(guān)系圖中的信息。
本文將騙保識別問題,定義為一個(gè)賬戶的二分類問題,二分類的標(biāo)注來自運(yùn)費(fèi)險(xiǎn)風(fēng)控的策略。
在解決這個(gè)問題的過程中,我們發(fā)現(xiàn),行為特征(購物行為、瀏覽行為等)不能有效地區(qū)分“正常賬戶”和“騙保賬戶”。這主要是因?yàn)轵_保的手段是專業(yè)的、變化的、有意遮掩的。然而,賬戶之間的關(guān)系,往往更加穩(wěn)定,更加難以隱藏。但是如何構(gòu)建賬戶之間的關(guān)系,讓“正常賬戶”和“騙保賬戶”的區(qū)分度更高呢?
構(gòu)建設(shè)備共用圖:包括賬戶和設(shè)備兩種節(jié)點(diǎn),如果一個(gè)賬戶曾在某設(shè)備上登錄,則這個(gè)賬戶和設(shè)備之間就有一條邊。
設(shè)備共用圖中“正常用戶”和“騙保團(tuán)伙”的關(guān)系模式區(qū)別較大。我們最終選擇了設(shè)備共用圖作為構(gòu)圖對象。
--?https://zhuanlan.zhihu.com/p/50531764
-- Who-Stole-the-Postage?Fraud Detection in Return-Freight Insurance Claims 螞蟻金服 KDD, 2018
【支付寶】惡意賬戶識別 /?高危賬戶識別
1 欺詐/惡意賬戶檢測
1) 什么是惡意賬戶
惡意賬戶針對在線賬戶提出,如:Gmail 提供的郵件服務(wù),微博/Twitter 提供的短消息分享服務(wù),支付寶提供的支付服務(wù)等。
惡意用戶可能迅速大量地?cái)U(kuò)散垃圾廣告等信息;催生微博僵尸賬戶達(dá)到某種非法營銷、傳播目的;在金融服務(wù)領(lǐng)域,注冊大量新賬戶達(dá)到薅羊毛、洗錢、欺詐等目的。
惡意賬戶具有強(qiáng)烈獲取利益傾向和團(tuán)伙性質(zhì),往往是通過批量、低成本注冊的賬戶。
2) 惡意賬戶的特點(diǎn)
1.設(shè)備聚集性:見下圖所示。兩張圖分別展示了用戶(縱軸)過去是否在設(shè)備(橫軸)有過登錄行為。藍(lán)色點(diǎn)代表該用戶過去有在某設(shè)備上登錄過。從圖中可以看出,左圖 pattern 較為均勻,右圖則完全不同,可以看到極為有規(guī)律和稠密的 pattern。這說明,黑產(chǎn)賬戶更傾向于在設(shè)備(媒介)的聯(lián)通上有著高聚集性。
左圖是正常賬戶特征,右圖是惡意賬戶特征
2.時(shí)間聚集性:見下圖所示。兩張圖分別展示了賬戶(縱軸)在時(shí)間(橫軸)上的行為序列。其中藍(lán)點(diǎn)代表登錄行為。從左圖可以看出,正常賬戶在注冊之后,每天會有均勻的登錄 pattern,右圖中的黑產(chǎn)賬戶則只在某個(gè)時(shí)間段內(nèi)集中達(dá)成某種行為,這種 pattern 我們稱之為時(shí)間聚集性。
左圖是正常賬戶特征,右圖是惡意賬戶特征
小結(jié):這兩種特征是黑產(chǎn)賬戶所固有形成的。即,這些黑產(chǎn)受利益所驅(qū)動而無法繞開這些模式(只要能準(zhǔn)確捕獲黑產(chǎn)賬戶之間共享的設(shè)備信息,這里的設(shè)備不限于某一個(gè)手機(jī)、某一個(gè)IP地址,可以認(rèn)為是一種媒介)。
因此,我們針對這些數(shù)據(jù)特點(diǎn)設(shè)計(jì)了基于圖的神經(jīng)網(wǎng)絡(luò)算法識別黑產(chǎn)賬戶。
2 GEM算法,世界上已知的首個(gè)利用圖卷積進(jìn)行惡意賬戶識別
基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的惡意賬戶識別方法,主要使用于賬戶登錄/注冊場景
在線賬戶伴隨著(移動)互聯(lián)網(wǎng)的誕生而產(chǎn)生,在金融服務(wù)領(lǐng)域,這種通過批量、低成本注冊的惡意賬戶的存在是十分危險(xiǎn)的。
該方法是支付寶為保障體系內(nèi)賬戶安全,降低惡意賬戶帶來的資損,保障支付體系健康,在人工智能領(lǐng)域所做的努力和嘗試。
傳統(tǒng)聯(lián)通子圖方法:
建立多個(gè)賬戶-設(shè)備二部圖,由于設(shè)備聚集性,我們可以計(jì)算每個(gè)聯(lián)通子圖的節(jié)點(diǎn)數(shù)目,每個(gè)賬戶的危害程度取決于該節(jié)點(diǎn)所在聯(lián)通子圖的節(jié)點(diǎn)數(shù)目。
該方法可以準(zhǔn)確識別那些設(shè)備聚集度特別高的黑產(chǎn)賬戶。但是對于設(shè)備聚集程度一般或較低的賬戶,很難做出準(zhǔn)確區(qū)分。
圖神經(jīng)網(wǎng)絡(luò)方法:
構(gòu)建異構(gòu)圖,包括賬戶類節(jié)點(diǎn),以及多種類型的設(shè)備信息,如:電話、MAC、IMSI 以及其他 ID。
為每個(gè)賬戶加入時(shí)間上的行為特征 X ∈ RN,P。其中每行 Xi 表示節(jié)點(diǎn)(賬戶或設(shè)備)在時(shí)間上的行為特征。我們希望構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)到通過設(shè)備聚集在一起的賬戶在行為特征上的模式,從而更準(zhǔn)確的做出判別。
模型設(shè)計(jì)
模型認(rèn)為是GCN的變體,在于:1.擴(kuò)展到異構(gòu)網(wǎng)絡(luò); 2.由于聚集性模式,對不同類型的圖?
?使用“sum”算子進(jìn)行聚合操作,同時(shí)對不同設(shè)備圖平均操作。相比GCN只能處理同質(zhì)網(wǎng)絡(luò),GEM 處理原始的異構(gòu)網(wǎng)絡(luò),信息會有所保留, 另外對每種類型節(jié)點(diǎn)使用“聚合”運(yùn)算操作,而不是normalized 操作。
GEM-attention 因?yàn)榭紤]不同設(shè)備的權(quán)重,而不是等同對待。
https://zhuanlan.zhihu.com/p/48243724
https://zhuanlan.zhihu.com/p/59666737
--?Heterogeneous Graph Neural Networks for Malicious Account Detection 螞蟻金服?CIKM, 2018
【螞蟻金服信貸】貸款違約預(yù)測
ST-GNN(Spatial-Temporal aware Graph Neural Network)的圖神經(jīng)網(wǎng)絡(luò)對這個(gè)集合進(jìn)行建模,從而獲取到圖中每個(gè)節(jié)點(diǎn)的embedding用于下游任務(wù)
貸款違約預(yù)測和鏈接預(yù)測(預(yù)測兩個(gè)節(jié)點(diǎn)之間是否存在邊)
利用供應(yīng)鏈網(wǎng)絡(luò)預(yù)測金融風(fēng)險(xiǎn),利用圖神經(jīng)網(wǎng)絡(luò)建模供應(yīng)鏈網(wǎng)絡(luò)預(yù)測貸款違約
本文針對中小企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)分析中數(shù)據(jù)不足的問題,提出了一種基于圖的供應(yīng)鏈挖掘的財(cái)務(wù)風(fēng)險(xiǎn)分析框架。
具體來說,為了獲取中小企業(yè)信用相關(guān)的拓?fù)浣Y(jié)構(gòu)和時(shí)間變化信息,我們設(shè)計(jì)并使用一種新的時(shí)空感知圖神經(jīng)網(wǎng)絡(luò),在中小企業(yè)圖上挖掘供應(yīng)鏈關(guān)系,然后基于挖掘的供應(yīng)鏈圖分析信用風(fēng)險(xiǎn)。在真實(shí)金融數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了我們提出的中小企業(yè)金融風(fēng)險(xiǎn)分析方案的有效性。
(如圖:服裝工廠的供應(yīng)鏈 |?供應(yīng)鏈網(wǎng)絡(luò)是隨時(shí)間變化的,所以可以表示成 T?個(gè)時(shí)刻的快照集合)

模型設(shè)計(jì):
對于時(shí)刻
的快照
,用類似圖注意力網(wǎng)絡(luò)的方法聚合節(jié)點(diǎn)
的周圍節(jié)點(diǎn)和邊的信息,不同之處在于這里因?yàn)槎嗔诉叺男畔?/span>。重復(fù)
次,每個(gè)時(shí)刻
快照上的節(jié)點(diǎn)都會獲得一個(gè)聚合了圖結(jié)構(gòu)信息的新表示
。有了每個(gè)時(shí)刻圖上節(jié)點(diǎn)的表示
,文章利用類似LSTM的方式來獲取這些節(jié)點(diǎn)的時(shí)序信息。可以獲得每一個(gè)節(jié)點(diǎn)在每個(gè)時(shí)刻融合了時(shí)序信息的節(jié)點(diǎn)表示
, 結(jié)合上面獲得
,文章最后使用了一個(gè)注意力機(jī)制綜合這兩種表示,獲得每個(gè)節(jié)點(diǎn)的最終表示。之后文章在螞蟻金服的信貸數(shù)據(jù)上做了貸款違約預(yù)測(鏈接預(yù)測:預(yù)測兩個(gè)節(jié)點(diǎn)之間是否存在邊)的任務(wù),證實(shí)了模型的有效性。
--?https://zhuanlan.zhihu.com/p/348060075
--?Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining?螞蟻金服 IJCAI, 2020
【GNN框架】
在包含數(shù)十億用戶和產(chǎn)品的網(wǎng)絡(luò)上。支持高效的分布式圖存儲,對采樣過程進(jìn)行了優(yōu)化,同時(shí)內(nèi)部集成了很多GNN模型。該框架已成功用于公司的多種產(chǎn)品推薦和個(gè)性化搜索任務(wù)。
-- AliGraph: A Comprehensive Graph Neural Network Platform
https://arxiv.org/abs/1902.08730
3.2 IBM【比特幣洗錢識別】
使用GCN算法識別比特幣反洗錢
節(jié)點(diǎn)表示交易的實(shí)體,邊表示比特幣的交易流,其數(shù)據(jù)共計(jì)203,769筆節(jié)點(diǎn)交易以及234,355條邊。
使用模型
基于GCN的半監(jiān)督學(xué)習(xí)
Skip-GCN:多了一個(gè)“skip”變量,即將節(jié)點(diǎn)輸入特征X和網(wǎng)絡(luò)embedding特征共同進(jìn)行學(xué)習(xí),其好處是相當(dāng)于在GCN中增加了一個(gè)LR的結(jié)構(gòu)。
EvolveGCN:GCN的時(shí)間模型是EvolveGCN,詳見《EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs》,捕捉圖的動態(tài)變化
https://zhuanlan.zhihu.com/p/85348013
--?Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics, 2019
3.3 北航【互聯(lián)網(wǎng)評論欺詐】
GraphConsis算法
賬戶的惡意/欺詐評論識別
本文主要通過鄰居節(jié)點(diǎn)距離進(jìn)行均衡采樣優(yōu)化,來針對風(fēng)控場景的一些Inconsistency問題。
1. Inconsistency?定義
Context Inconsistency:a. frauder 會通過建立正常連接來偽裝 b. 正樣本數(shù)量少
Feature Inconsistency:?節(jié)點(diǎn)特征差異性可能很大
Relation Inconsistency:?存在不同類型的邊會造成影響
2.?解決方案
通過引入可訓(xùn)練的Context Embedding,補(bǔ)充節(jié)點(diǎn)特征,?解決Context Inconsistency
通過節(jié)點(diǎn)特征相似度,過濾低相似度節(jié)點(diǎn),提高采樣樣本中的節(jié)點(diǎn)特征一致性
通過Attention,對不同邊類型的鄰居節(jié)點(diǎn)增加權(quán)重影響
https://zhuanlan.zhihu.com/p/385173898
--?Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航
4??其他方向進(jìn)展
4.1 Uber Eats【餐廳推薦】
使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行產(chǎn)品推薦。典型的做法是對用戶和商品的交互關(guān)系進(jìn)行建模,然后通過某種負(fù)采樣損失學(xué)習(xí)節(jié)點(diǎn)嵌入,并通過kNN實(shí)時(shí)推薦給用戶相似產(chǎn)品。Uber Eats?公司很早就通過這樣的方式進(jìn)行產(chǎn)品推薦,具體而言,他們使用圖神經(jīng)網(wǎng)絡(luò)?GraphSage?為用戶推薦食品和餐廳。
-- https://eng.uber.com/uber-eats-graph-learning/
--?Food Discovery with Uber Eats: Using Graph Learning to Power Recommendations
4.2 網(wǎng)易音樂【音樂推薦】
通過圖神經(jīng)網(wǎng)絡(luò),挖掘用戶的特征、歌曲的特征、用戶對歌曲的行為特征,實(shí)現(xiàn)精準(zhǔn)的音樂推薦。
圖中每個(gè)節(jié)點(diǎn)都具有結(jié)構(gòu)信息,如果用戶頻繁訂閱某種類別音樂或?qū)δ撤N類別音樂評分較高,那么系統(tǒng)就可以認(rèn)定該用戶對該類音樂比較感興趣,就可以向該用戶推薦更多該類別的音樂。
--?https://zhuanlan.zhihu.com/p/442309107
4.3 滴滴【車輛調(diào)控管理】
滴滴出行研究了一種基于時(shí)空多圖卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)約車需求量預(yù)測模型。
通過分析區(qū)域之間復(fù)雜的時(shí)空依賴關(guān)系,對網(wǎng)約車需求量進(jìn)行準(zhǔn)確預(yù)測,指導(dǎo)車輛的調(diào)度,提高車輛的利用率,減少等待時(shí)間,并在一定程度上緩解了交通的擁堵。
--?Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting
4.4 阿里
【廣告推薦】
搜索廣告匹配
阿里媽媽利用圖神經(jīng)網(wǎng)絡(luò),從用戶行為日志、內(nèi)容屬性等不同維度挖掘 Query(查詢詞)、Item(商品)和 Ad(廣告)的多種關(guān)系。
對于在線請求場景,通過計(jì)算用戶查詢詞向量、前置行為中節(jié)點(diǎn)向量和廣告節(jié)點(diǎn)向量之間的距離進(jìn)行高效的向量化最近鄰檢索,從而快速匹配到符合用戶意圖的廣告并推薦給用戶。
【淘寶推薦】
一篇關(guān)于結(jié)合知識圖譜應(yīng)用于大規(guī)模推薦的論文,成功應(yīng)用于線上淘寶APP場景且有明顯提升,推薦一讀。
當(dāng)前基于KG的推薦方法可以分為兩類:基于Path和基于GNN的方法。
基于Path的方法通過探索目標(biāo)user-item對在KG上的多個(gè)meta-path來預(yù)測用戶偏好。這是一種典型需要domain knowledge的方法,而且忽略了KG中豐富的結(jié)構(gòu)信息,因此不能充分刻畫給定user和item內(nèi)在的關(guān)系。
-- ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation?SIGIR, 2020
https://blog.csdn.net/abcdefg90876/article/details/106893937/
【推薦系統(tǒng)】
異構(gòu)圖表示學(xué)習(xí)
-- Representation Learning for Attributed Multiplex Heterogeneous Network ?阿里異構(gòu)Embedding?GATNE
論文詳解:
4.5 Fabula?AI【假新聞檢測】
倫敦的初創(chuàng)公司Fabula?AI,使用GNN檢測假新聞等
https://arxiv.org/abs/1902.06673
4.6 Comodo 科摩多【惡意應(yīng)用識別】
通過構(gòu)建HIN抽關(guān)系特征,對安卓智能手機(jī)中的惡意應(yīng)用進(jìn)行識別。
實(shí)體:APP,API
關(guān)系:
1)Package關(guān)系(API-API):API 共用package,用矩陣P表示
2)CodeBlock關(guān)系(API-API): API 共用code block,用矩陣B表示
3)InvokeMethod關(guān)系(API-API): API 共用invoke方法,用矩陣I表示
4)Contain關(guān)系(APP-API):APP使用API,用矩陣A表示
--?HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network?KDD?2017
5??其他相關(guān)&參考資料
SIGIR2020推薦系統(tǒng)論文一覽:https://zhuanlan.zhihu.com/p/159742956
圖數(shù)據(jù)庫:https://zhuanlan.zhihu.com/p/210074511
圖計(jì)算在網(wǎng)易游戲中的應(yīng)用:https://zhuanlan.zhihu.com/p/370433730
*2021年,GNN+推薦系統(tǒng)/CV/物理/化學(xué):https://blog.csdn.net/BAAIBeijing/article/details/112691028
*GNN 圖神經(jīng)網(wǎng)絡(luò) 2021 年的5大應(yīng)用熱點(diǎn):https://zhuanlan.zhihu.com/p/346895359
*工業(yè)向反欺詐算法論文及解讀匯總:https://zhuanlan.zhihu.com/p/85155064
*開源分布式圖數(shù)據(jù)庫:https://zhuanlan.zhihu.com/p/152399147
螞蟻金服:GeaBase[1]
金融級圖數(shù)據(jù)庫,通過自定義類語言為業(yè)務(wù)方提供服務(wù),全量計(jì)算下推,提供毫秒級延時(shí)。主要應(yīng)用于以下場景:金融風(fēng)控場景:萬億級邊資金網(wǎng)絡(luò),存儲實(shí)時(shí)交易信息,實(shí)時(shí)欺詐檢測。
推薦場景:股票證券推薦。
螞蟻森林:萬億級的圖存儲能力,低延時(shí)強(qiáng)一致關(guān)系數(shù)據(jù)查詢更新。
GNN:用于小時(shí)級 GNN 訓(xùn)練。嘗試動態(tài)圖 GNN 在線推理。
阿里巴巴:iGraph[2]
iGraph 是圖索引及查詢系統(tǒng),存儲用戶的行為信息,是阿里數(shù)據(jù)中臺四駕馬車之一。通過 Gremlin 語言為業(yè)務(wù)方提供電商圖譜實(shí)時(shí)查詢。
今日頭條:ByteGraph[3]?
ByteGraph 通過在 kv 上增加統(tǒng)一 cache 層,關(guān)系數(shù)據(jù)拆分為 B+ 樹以應(yīng)對高效的邊訪問和采樣,類似 Facebook 的 TAO 。
騰訊高性能分布式圖計(jì)算框架柏拉圖[4]?
以上文中灰色鏈接部分也屬于參考文獻(xiàn),此處不再贅述
