前言：

本文重點(diǎn)：

工業(yè)界金融欺詐風(fēng)控領(lǐng)域上?GNN的應(yīng)用及進(jìn)展

注：

本文僅針對可用「深度圖神經(jīng)網(wǎng)絡(luò)解決」的 - 「金融風(fēng)控」相關(guān)的任務(wù)論文
「除深度圖神經(jīng)網(wǎng)絡(luò)之外，業(yè)界常用經(jīng)典圖算法」 &?「除金融欺詐風(fēng)控領(lǐng)域之外，常見推薦等任務(wù)」 & 「圖數(shù)據(jù)庫存儲方式」會順帶提及，但本文不會詳細(xì)講解

前置知識：

一文讀懂圖神經(jīng)網(wǎng)絡(luò)

前言
1??WHY GNN

GNN 的核心
未來的研究方向
圖神經(jīng)網(wǎng)絡(luò)框架
GNN相關(guān)的一些開源平臺

2??圖數(shù)據(jù)集選取條件

現(xiàn)有開源數(shù)據(jù)集
金融風(fēng)控類 - 數(shù)據(jù)集現(xiàn)狀

3??金融風(fēng)控方向GNN進(jìn)展

阿里螞蟻

【網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)】自動選擇鄰居的GNN
【淘寶】運(yùn)費(fèi)險(xiǎn)詐騙識別「反欺詐」

運(yùn)費(fèi)騙保
GeniePath算法

【支付寶】惡意賬戶識別 /?高危賬戶識別

欺詐/惡意賬戶檢測
GEM算法，世界上已知的首個(gè)利用圖卷積進(jìn)行惡意賬戶識別

【螞蟻金服信貸】貸款違約預(yù)測
【GNN框架】

【比特幣洗錢識別】

北航

【互聯(lián)網(wǎng)評論欺詐】

GNN業(yè)界進(jìn)展

4??其他方向進(jìn)展

阿里

【廣告推薦】
【淘寶推薦】
【推薦系統(tǒng)】

Uber Eats

【餐廳推薦】

網(wǎng)易音樂

【音樂推薦】

滴滴

【車輛調(diào)控管理】

Fabula?AI

【假新聞檢測】

Comodo 科摩多

【惡意應(yīng)用識別】

5??其他相關(guān)&參考資料

1??WHY GNN

非歐空間需要GNN來解決：

當(dāng)前，深度學(xué)習(xí)技術(shù)已經(jīng)在語音識別、機(jī)器翻譯、圖像分析和計(jì)算機(jī)視覺等方向取得了重要成果
? 歐氏空間：音頻 / 自然語言（1D）、圖像（2D）、視頻（3D）
? 非歐空間：社交網(wǎng)絡(luò)數(shù)據(jù)、生物化學(xué)圖結(jié)構(gòu)、引文網(wǎng)絡(luò)等

“圖結(jié)構(gòu)”的分類

有向 / 無向（邊）
有權(quán) / 無權(quán)（邊）
有特征 / 無特征（節(jié)點(diǎn)?/ 邊）
同構(gòu) / 異購（節(jié)點(diǎn) / 邊）
Attributed：考慮節(jié)點(diǎn)性質(zhì)，如用戶性別、年齡、購買力等
Multiplex：多重邊，節(jié)點(diǎn)之間可能有多種關(guān)系，比如說兩個(gè)用戶之間可能為好友、同學(xué)、交易關(guān)系等；用戶和item之間可以瀏覽、點(diǎn)擊、添加到購物車、購買等
Heterogeneous：異構(gòu)，節(jié)點(diǎn)和邊有多種類型，節(jié)點(diǎn)類型+邊類型>2
-- Representation Learning for Attributed Multiplex Heterogeneous Network ?阿里異構(gòu)Embedding?GATNE

GNN 的核心

就是 information diffusion mechanism / message passing。
其核心就是要在相互連接的節(jié)點(diǎn)之間交換信息，即需要迭代地更新節(jié)點(diǎn)的表示，每一次更新，每個(gè)節(jié)點(diǎn)上的信息都和相鄰節(jié)點(diǎn)做一定的交互。
這兩類都通過一個(gè)參數(shù)化表示的深度學(xué)習(xí)模塊來做這樣的信息交換：在 RecGNN 中，每一步信息交換的變換函數(shù)都是一樣的，并且目標(biāo)是做很多次這樣的信息交換直到每個(gè)節(jié)點(diǎn)上的特征都達(dá)到穩(wěn)態(tài)；在 ConvGNN 中，每一步信息交換的函數(shù)都不一樣，并且只經(jīng)過有限步的信息交換。這一點(diǎn)區(qū)別如下圖所示。
對于 graph-level 的任務(wù)來說，還需要從圖上每個(gè)節(jié)點(diǎn)把信息聚合起來，這就涉及到很多 pooling 的技術(shù)。

圖神經(jīng)網(wǎng)絡(luò)的基本思想：

圖神經(jīng)網(wǎng)絡(luò)的基本思想，就是基于節(jié)點(diǎn)的局部鄰居信息對節(jié)點(diǎn)進(jìn)行embedding。
直觀來講，就是通過神經(jīng)網(wǎng)絡(luò)來聚合每個(gè)節(jié)點(diǎn)及其周圍節(jié)點(diǎn)的信息。
算法思想是基于節(jié)點(diǎn)的局部鄰居及其自身特征信息對節(jié)點(diǎn)進(jìn)行表示學(xué)習(xí)(Node Representation Learning)。
本質(zhì)上是通過神經(jīng)網(wǎng)絡(luò)對聚合節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)的特征信息做非線性變換。
圖神經(jīng)網(wǎng)絡(luò)有很多變種，可以從圖的類型、訓(xùn)練方法和傳播步驟等多方面進(jìn)行變種分類。

圖上的學(xué)習(xí)任務(wù)

1、圖節(jié)點(diǎn)分類任務(wù)：圖中每個(gè)節(jié)點(diǎn)都有對應(yīng)的特征，當(dāng)我們已知一些節(jié)點(diǎn)的類別的時(shí)候，可以設(shè)計(jì)分類任務(wù)針對未知節(jié)點(diǎn)進(jìn)行分類
2、圖邊結(jié)構(gòu)預(yù)測任務(wù)：圖中的節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊關(guān)系可能在輸入數(shù)據(jù)中能夠采集到，而有些隱藏的邊需要我們挖掘出來。就是對邊的預(yù)測任務(wù)，節(jié)點(diǎn)和節(jié)點(diǎn)之間關(guān)系的預(yù)測。
3、圖的分類：對于整個(gè)圖來說，我們也可以對圖分類?；舅悸肥菍D中節(jié)點(diǎn)的特征聚合起來作為圖的特征，再進(jìn)行分類。

另：

一般在圖中尋找子團(tuán)的任務(wù)為社群檢測（Community Detection）或者叫作高密子圖挖掘（Dense Subgraph Mining）
算法不斷刪除節(jié)點(diǎn)使得剩下的節(jié)點(diǎn)構(gòu)成的社區(qū)可疑度最大，然后記錄整個(gè)刪除過程中社區(qū)可疑度最大的那一輪，那么該輪的剩余節(jié)點(diǎn)構(gòu)成的子圖就是最可疑的。
針對固定問題使用固定算法，如FRAUDAR?算法自動化地挖掘出二部圖里的高密子圖，較少用GNN解決
https://zhuanlan.zhihu.com/p/45625323

學(xué)習(xí)任務(wù)的應(yīng)用

圖神經(jīng)網(wǎng)絡(luò)在文本分類（Text classification）
序列標(biāo)注（Sequence labeling）
神經(jīng)機(jī)器翻譯（Neural machine translation）
關(guān)系抽取（Relation extraction）
事件抽?。‥vent extraction）
圖像分類（Image Classification）
視覺推理（Visual Reasoning）
語義分割（Semantic Segmentation）
等等

領(lǐng)域應(yīng)用：

風(fēng)控領(lǐng)域、推薦系統(tǒng)（社交網(wǎng)絡(luò) / 電商推薦）、生物醫(yī)療等等

未來的研究方向

如何有效地提升模型復(fù)雜度：因?yàn)?convolution 層變多時(shí)，各個(gè)節(jié)點(diǎn)的特征將會變得越來越接近，加多層數(shù)最后會使得所有的點(diǎn)上的特征都變成一樣的，因此不能單獨(dú)靠把模型做深來提高模型復(fù)雜度。
如何提高模型的拓展性：當(dāng)圖的規(guī)模變得特別大時(shí)，就需要考慮如何來對圖進(jìn)行聚合并且盡量不要丟失圖上的信息。有兩種思路：sampling 可能會使得節(jié)點(diǎn)丟失一些很關(guān)鍵的鄰居；clustering 可能會使得圖丟失一些比較特別的結(jié)構(gòu)模式。
如何融合異源數(shù)據(jù)：真實(shí)應(yīng)用場景中，圖可能會有不同類型的節(jié)點(diǎn)、連邊，如何處理這些數(shù)據(jù)也將成為一個(gè)研究方向。
如何處理動態(tài)的圖：就像 STGNN 中所做的事情一樣。

圖神經(jīng)網(wǎng)絡(luò)框架

幾種當(dāng)下最為廣泛的圖神經(jīng)網(wǎng)絡(luò)框架

1、Deep Graph Library（DGL）

DGL采用了基于「消息傳遞」的編程模型
消息傳遞是圖計(jì)算的經(jīng)典編程模型。
DGL已經(jīng)支持PyTorch、MXNet和TensorFlow作為其后端。

2、PyTorch Geometric（PyG）

PyG目前支持大量常見基準(zhǔn)數(shù)據(jù)集
基于PyTorch的幾何深度學(xué)習(xí)擴(kuò)展庫

3、Ant Graph machine Learning system（AGL）

由阿里的螞蟻金服團(tuán)隊(duì)推出的大規(guī)模圖機(jī)器學(xué)習(xí)系統(tǒng)

4、tf_geometric

????????同時(shí)支持TensorFlow 1.x和2.x的圖神經(jīng)網(wǎng)絡(luò)框架

5、PGL

????????由百度的paddle一個(gè)基于 PaddlePaddle 的高效易用的圖學(xué)習(xí)框架

GNN相關(guān)的一些開源平臺

1、Deep Graph Library（DGL）

DGL由紐約大學(xué)、紐約大學(xué)上海分校、AWS上海研究所和AWS MXNet科學(xué)小組開發(fā)和維護(hù)GNN平臺。開始時(shí)間: 2018.
地址:https://www.dgl.ai/,
github地址:?https://github.com/jermainewang/dgl

2、NGra

NGra是由北京大學(xué)和微軟亞洲研究院開發(fā)和維護(hù)一款GNN平臺。開始時(shí)間:2018。
地址:https://arxiv.org/pdf/1810.08403.pdf

3、Graph_nets

Graph_nets是由DeepMind, Google Corp開發(fā)和維護(hù)的。開始時(shí)間:2018
地址:?https://github.com/deepmind/graph_nets

4、Euler

Euler是一款由阿里巴巴旗下的阿里媽媽開源的GNN平臺。開始時(shí)間:2019
地址:?https://github.com/alibaba/euler

5、PyTorch Geometric

PyTorch Geometric由德國杜特蒙德大學(xué)開發(fā)和維護(hù)的GNN平臺。開始時(shí)間:2019
地址:https://github.com/rusty1s/pytorch_geometric
論文：https://arxiv.org/abs/1903.02428?context=cs.LG

6、PyTorch-BigGraph（PBG）

PBG是由Facebook人工智能研究開發(fā)和維護(hù)的GNN平臺。
開始時(shí)間:2019
地址:?https://github.com/facebookresearch/PyTorch-BigGraph
論文：https://arxiv.org/abs/1903.12287

2??圖數(shù)據(jù)集選取條件

圖數(shù)據(jù)集的選擇：

關(guān)系型數(shù)據(jù)，復(fù)雜網(wǎng)絡(luò)
圖(graph)是一種數(shù)據(jù)結(jié)構(gòu)，常見的圖結(jié)構(gòu)由節(jié)點(diǎn)(node)和邊(edge)構(gòu)成，節(jié)點(diǎn)包含了實(shí)體(entity)信息，邊包含實(shí)體間的關(guān)系(relation)信息。
「節(jié)點(diǎn)」和「邊」必需，節(jié)點(diǎn)屬性/類別 &?邊權(quán)重/類別可選（異構(gòu)）

本次調(diào)研要求領(lǐng)域：

金融風(fēng)控?> 電商網(wǎng)絡(luò) > 社交網(wǎng)絡(luò)

現(xiàn)有開源數(shù)據(jù)集

已有大規(guī)模公開數(shù)據(jù)集

斯坦福大學(xué)：
https://snap.stanford.edu/data/（大型社交、信息網(wǎng)絡(luò)。包括：圖分類數(shù)據(jù)庫、社交網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、亞馬遜網(wǎng)絡(luò)等

可用：社交網(wǎng)絡(luò) /?亞馬遜電商數(shù)據(jù)

https://ogb.stanford.edu/（三種圖任務(wù)上的真實(shí)基準(zhǔn)數(shù)據(jù)集，同時(shí)提供數(shù)據(jù)加載器和評估器（PyTorch）

可用：亞馬遜電商數(shù)據(jù)?
-- –?https://blog.csdn.net/lj2048/article/details/106575412/

-- ?–?https://www.pianshen.com/article/71231875410/

亞馬遜電商網(wǎng)絡(luò)

常用任務(wù)：節(jié)點(diǎn)分類，預(yù)測產(chǎn)品的類別
數(shù)據(jù)集特點(diǎn)：無權(quán)重?zé)o向圖
節(jié)點(diǎn)為售賣的商品，邊表示兩個(gè)商品被一同購買

社交網(wǎng)絡(luò)（FaceBook、Twitter等）

常用任務(wù)：推薦算法，解決冷啟問題
數(shù)據(jù)集特點(diǎn)：無權(quán)重（FaceBook無向/Twitter有向）
節(jié)點(diǎn)表示用戶，邊表示朋友關(guān)系

知識圖譜

Freebase

采用結(jié)構(gòu)化數(shù)據(jù)的形式，如，已故美國總統(tǒng)肯尼迪的條目。類似履歷表，包括出生時(shí)間、死亡時(shí)間、性別、職業(yè)、國籍、配偶等等
這一套格式是固定的，所有人物條目都包含同樣的字段。這樣一來，數(shù)據(jù)之間就可以很容易地聯(lián)系在一起，為信息的查詢和處理提供了巨大的方便

WordNet

按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。WordNet是一個(gè)覆蓋范圍寬廣的英語詞匯語義網(wǎng)

金融風(fēng)控類 - 數(shù)據(jù)集現(xiàn)狀

總述：

圖深度學(xué)習(xí)技術(shù)應(yīng)用在風(fēng)控領(lǐng)域已經(jīng)證明是有效且必要的，但發(fā)展時(shí)間較短，整體進(jìn)程還處在發(fā)展初期階段。
挑戰(zhàn)：

模型開發(fā)者需要面對的挑戰(zhàn)：
數(shù)據(jù)來源狹窄、數(shù)據(jù)格式不統(tǒng)一
算法驗(yàn)證標(biāo)準(zhǔn)尚未統(tǒng)一
應(yīng)用場景多樣
具體業(yè)務(wù)上模型定制化程度較高
缺少公開數(shù)據(jù)

1、數(shù)據(jù)：

數(shù)據(jù)隔閡 &?缺少統(tǒng)一數(shù)據(jù)
當(dāng)前很少有公開的風(fēng)控領(lǐng)域的圖數(shù)據(jù)能夠直接用于風(fēng)控場景的圖深度學(xué)習(xí)算法，雖然算法研究者多擁有自己的數(shù)據(jù)源，但外人幾乎接觸不到：
有的互聯(lián)網(wǎng)公司，由于業(yè)務(wù)的特點(diǎn)，能夠很方便接觸到海量的用戶數(shù)據(jù)（交易數(shù)據(jù)、APP下載數(shù)據(jù)、登錄/注冊數(shù)據(jù)、瀏覽/購買數(shù)據(jù)等），其中螞蟻金服較為突出。這些公司或者組織能夠很方便的基于自己現(xiàn)實(shí)業(yè)務(wù)，利用現(xiàn)有數(shù)據(jù)進(jìn)行模型的構(gòu)建。
但由于這些用戶數(shù)據(jù)的私密性，這些數(shù)據(jù)僅在其所有者內(nèi)部使用，外人接觸不到。這也造成業(yè)內(nèi)沒有統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行模型的對比驗(yàn)證。各家目前還是各自為營，自產(chǎn)自銷。?
?–?–?https://bbs.huaweicloud.com/blogs/184712

2、模型算法：

當(dāng)前風(fēng)控領(lǐng)域的圖深度學(xué)習(xí)算法在不同場景下還沒有很好的統(tǒng)一性。換句話說，現(xiàn)在單個(gè)算法主要還是聚焦在較為單一的風(fēng)控場景。
比如首個(gè)利用圖卷積進(jìn)行惡意賬戶識別的GEM算法主要使用于賬戶登錄/注冊場景。--?Heterogeneous Graph Neural Networks for Malicious Account Detection 螞蟻金服
GraphConsis算法主要聚焦在賬戶的惡意/欺詐評論識別。--?Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航
數(shù)據(jù)的隔閡，統(tǒng)一數(shù)據(jù)的缺少以及業(yè)務(wù)的針對性是造成模型針對面較窄的一些原因。
（都和我們預(yù)期的銀行金融數(shù)據(jù)不同，且螞蟻金服數(shù)據(jù)未開源）

3??金融風(fēng)控方向GNN業(yè)界進(jìn)展

3.1 阿里螞蟻

由于螞蟻金服為上億級的個(gè)人用戶提供服務(wù)，產(chǎn)生的金融數(shù)據(jù)從一開始就是海量且極其復(fù)雜的。即便是此前最先進(jìn)的Graph Embedding 技術(shù)，處理金融級的圖結(jié)構(gòu)仍有壓力。

自研的圖結(jié)構(gòu)處理Graph Embedding 技術(shù)?ICML 2018

【網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)】自動選擇鄰居的GNN

具有自適應(yīng)接收路徑的圖神經(jīng)網(wǎng)絡(luò)，自動學(xué)習(xí)對目標(biāo)節(jié)點(diǎn)貢獻(xiàn)大的鄰居進(jìn)行傳播
規(guī)避惡意賬戶
GeniePath通過定義兩個(gè)parametric函數(shù)：自適應(yīng)廣度函數(shù)、和自適應(yīng)深度函數(shù)，共同對子圖進(jìn)行廣度、深度搜索。其中自適應(yīng)廣度函數(shù)限定朝哪個(gè)方向搜索重要節(jié)點(diǎn)，自適應(yīng)深度函數(shù)限定搜索的深度，即是1跳鄰居信息就足夠了，還是需要多跳鄰居信息。
-- GeniePath: Graph Neural Networks with Adaptive Receptive Paths?螞蟻金服??CIKM, 2018
--?https://zhuanlan.zhihu.com/p/61134212
--?https://export.arxiv.org/pdf/1802.00910

【淘寶】運(yùn)費(fèi)險(xiǎn)詐騙識別【反欺詐】

1 什么是運(yùn)費(fèi)騙保

本文在傳統(tǒng)運(yùn)費(fèi)險(xiǎn)風(fēng)控的基礎(chǔ)上，詳細(xì)介紹了螞蟻金服人工智能部如何用圖學(xué)習(xí)的方法，抓取更多的騙保行為
退貨是買家常見的訴求。然而退貨的運(yùn)費(fèi)爭議巨大。為了保障買家對購物行為的“后悔權(quán)”，運(yùn)費(fèi)險(xiǎn)應(yīng)運(yùn)而生。大規(guī)模的運(yùn)費(fèi)險(xiǎn)單量，也催生了不少的騙保產(chǎn)業(yè)。
購買運(yùn)費(fèi)險(xiǎn)后，在確認(rèn)收貨前，買家可以要求退貨。退貨所需要的運(yùn)費(fèi)，需要承保公司來承擔(dān)。大部分的運(yùn)費(fèi)險(xiǎn)，購買一單只需要幾毛錢，但退回的運(yùn)費(fèi)卻有幾塊錢。如果實(shí)際退貨沒有發(fā)生，或?qū)嶋H退貨所需運(yùn)費(fèi)成本低于保險(xiǎn)公司的賠付額，用戶可以得到數(shù)倍收益。
--?https://mp.weixin.qq.com/s?__biz=MzI0Nzc3MTQyMw==&mid=2247486168&idx=1&sn=fda5696ed9b4ac2c9ede9daa18c4e41c&chksm=e9abb2a8dedc3bbe8f0fd2c49b5feeee699f4eb20ad6d09c2bb35e5d8a0344a2f8c836da1c04&scene=21#wechat_redirect

2 GeniePath算法

運(yùn)費(fèi)騙保識別問題
傳統(tǒng)的運(yùn)費(fèi)險(xiǎn)風(fēng)控，主要通過一組策略，在線對單個(gè)賬戶的風(fēng)險(xiǎn)等級進(jìn)行評估?；诓呗?、著眼單個(gè)賬戶，往往不能覆蓋所有的騙?；顒?；
本文將重點(diǎn)放在了構(gòu)建賬戶關(guān)系網(wǎng)絡(luò)（即關(guān)系圖），用神經(jīng)網(wǎng)絡(luò)的方法，挖掘關(guān)系圖中的信息。
本文將騙保識別問題，定義為一個(gè)賬戶的二分類問題，二分類的標(biāo)注來自運(yùn)費(fèi)險(xiǎn)風(fēng)控的策略。
在解決這個(gè)問題的過程中，我們發(fā)現(xiàn)，行為特征（購物行為、瀏覽行為等）不能有效地區(qū)分“正常賬戶”和“騙保賬戶”。這主要是因?yàn)轵_保的手段是專業(yè)的、變化的、有意遮掩的。然而，賬戶之間的關(guān)系，往往更加穩(wěn)定，更加難以隱藏。但是如何構(gòu)建賬戶之間的關(guān)系，讓“正常賬戶”和“騙保賬戶”的區(qū)分度更高呢？
構(gòu)建設(shè)備共用圖：包括賬戶和設(shè)備兩種節(jié)點(diǎn)，如果一個(gè)賬戶曾在某設(shè)備上登錄，則這個(gè)賬戶和設(shè)備之間就有一條邊。
設(shè)備共用圖中“正常用戶”和“騙保團(tuán)伙”的關(guān)系模式區(qū)別較大。我們最終選擇了設(shè)備共用圖作為構(gòu)圖對象。
--?https://zhuanlan.zhihu.com/p/50531764
-- Who-Stole-the-Postage？Fraud Detection in Return-Freight Insurance Claims 螞蟻金服 KDD, 2018

【支付寶】惡意賬戶識別 /?高危賬戶識別

1 欺詐/惡意賬戶檢測

1）什么是惡意賬戶

惡意賬戶針對在線賬戶提出，如：Gmail 提供的郵件服務(wù)，微博/Twitter 提供的短消息分享服務(wù)，支付寶提供的支付服務(wù)等。
惡意用戶可能迅速大量地?cái)U(kuò)散垃圾廣告等信息；催生微博僵尸賬戶達(dá)到某種非法營銷、傳播目的；在金融服務(wù)領(lǐng)域，注冊大量新賬戶達(dá)到薅羊毛、洗錢、欺詐等目的。
惡意賬戶具有強(qiáng)烈獲取利益傾向和團(tuán)伙性質(zhì)，往往是通過批量、低成本注冊的賬戶。

2）惡意賬戶的特點(diǎn)

1.設(shè)備聚集性：見下圖所示。兩張圖分別展示了用戶（縱軸）過去是否在設(shè)備（橫軸）有過登錄行為。藍(lán)色點(diǎn)代表該用戶過去有在某設(shè)備上登錄過。從圖中可以看出，左圖 pattern 較為均勻，右圖則完全不同，可以看到極為有規(guī)律和稠密的 pattern。這說明，黑產(chǎn)賬戶更傾向于在設(shè)備（媒介）的聯(lián)通上有著高聚集性。

左圖是正常賬戶特征，右圖是惡意賬戶特征

2.時(shí)間聚集性：見下圖所示。兩張圖分別展示了賬戶（縱軸）在時(shí)間（橫軸）上的行為序列。其中藍(lán)點(diǎn)代表登錄行為。從左圖可以看出，正常賬戶在注冊之后，每天會有均勻的登錄 pattern，右圖中的黑產(chǎn)賬戶則只在某個(gè)時(shí)間段內(nèi)集中達(dá)成某種行為，這種 pattern 我們稱之為時(shí)間聚集性。

左圖是正常賬戶特征，右圖是惡意賬戶特征

小結(jié)：這兩種特征是黑產(chǎn)賬戶所固有形成的。即，這些黑產(chǎn)受利益所驅(qū)動而無法繞開這些模式（只要能準(zhǔn)確捕獲黑產(chǎn)賬戶之間共享的設(shè)備信息，這里的設(shè)備不限于某一個(gè)手機(jī)、某一個(gè)IP地址，可以認(rèn)為是一種媒介）。
因此，我們針對這些數(shù)據(jù)特點(diǎn)設(shè)計(jì)了基于圖的神經(jīng)網(wǎng)絡(luò)算法識別黑產(chǎn)賬戶。

2 GEM算法，世界上已知的首個(gè)利用圖卷積進(jìn)行惡意賬戶識別

基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的惡意賬戶識別方法，主要使用于賬戶登錄/注冊場景
在線賬戶伴隨著（移動）互聯(lián)網(wǎng)的誕生而產(chǎn)生，在金融服務(wù)領(lǐng)域，這種通過批量、低成本注冊的惡意賬戶的存在是十分危險(xiǎn)的。
該方法是支付寶為保障體系內(nèi)賬戶安全，降低惡意賬戶帶來的資損，保障支付體系健康，在人工智能領(lǐng)域所做的努力和嘗試。
傳統(tǒng)聯(lián)通子圖方法：

建立多個(gè)賬戶-設(shè)備二部圖，由于設(shè)備聚集性，我們可以計(jì)算每個(gè)聯(lián)通子圖的節(jié)點(diǎn)數(shù)目，每個(gè)賬戶的危害程度取決于該節(jié)點(diǎn)所在聯(lián)通子圖的節(jié)點(diǎn)數(shù)目。
該方法可以準(zhǔn)確識別那些設(shè)備聚集度特別高的黑產(chǎn)賬戶。但是對于設(shè)備聚集程度一般或較低的賬戶，很難做出準(zhǔn)確區(qū)分。

圖神經(jīng)網(wǎng)絡(luò)方法：

構(gòu)建異構(gòu)圖，包括賬戶類節(jié)點(diǎn)，以及多種類型的設(shè)備信息，如：電話、MAC、IMSI 以及其他 ID。
為每個(gè)賬戶加入時(shí)間上的行為特征 X ∈ RN,P。其中每行 Xi 表示節(jié)點(diǎn)（賬戶或設(shè)備）在時(shí)間上的行為特征。我們希望構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)到通過設(shè)備聚集在一起的賬戶在行為特征上的模式，從而更準(zhǔn)確的做出判別。

模型設(shè)計(jì)

模型認(rèn)為是GCN的變體，在于：1.擴(kuò)展到異構(gòu)網(wǎng)絡(luò); 2.由于聚集性模式，對不同類型的圖??使用“sum”算子進(jìn)行聚合操作，同時(shí)對不同設(shè)備圖平均操作。
相比GCN只能處理同質(zhì)網(wǎng)絡(luò)，GEM 處理原始的異構(gòu)網(wǎng)絡(luò)，信息會有所保留，另外對每種類型節(jié)點(diǎn)使用“聚合”運(yùn)算操作，而不是normalized 操作。
GEM-attention 因?yàn)榭紤]不同設(shè)備的權(quán)重，而不是等同對待。

https://zhuanlan.zhihu.com/p/48243724
https://zhuanlan.zhihu.com/p/59666737
--?Heterogeneous Graph Neural Networks for Malicious Account Detection 螞蟻金服?CIKM, 2018

【螞蟻金服信貸】貸款違約預(yù)測

ST-GNN（Spatial-Temporal aware Graph Neural Network）的圖神經(jīng)網(wǎng)絡(luò)對這個(gè)集合進(jìn)行建模，從而獲取到圖中每個(gè)節(jié)點(diǎn)的embedding用于下游任務(wù)
貸款違約預(yù)測和鏈接預(yù)測（預(yù)測兩個(gè)節(jié)點(diǎn)之間是否存在邊）
利用供應(yīng)鏈網(wǎng)絡(luò)預(yù)測金融風(fēng)險(xiǎn)，利用圖神經(jīng)網(wǎng)絡(luò)建模供應(yīng)鏈網(wǎng)絡(luò)預(yù)測貸款違約
本文針對中小企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)分析中數(shù)據(jù)不足的問題，提出了一種基于圖的供應(yīng)鏈挖掘的財(cái)務(wù)風(fēng)險(xiǎn)分析框架。
具體來說，為了獲取中小企業(yè)信用相關(guān)的拓?fù)浣Y(jié)構(gòu)和時(shí)間變化信息，我們設(shè)計(jì)并使用一種新的時(shí)空感知圖神經(jīng)網(wǎng)絡(luò)，在中小企業(yè)圖上挖掘供應(yīng)鏈關(guān)系，然后基于挖掘的供應(yīng)鏈圖分析信用風(fēng)險(xiǎn)。在真實(shí)金融數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了我們提出的中小企業(yè)金融風(fēng)險(xiǎn)分析方案的有效性。
（如圖：服裝工廠的供應(yīng)鏈 |?供應(yīng)鏈網(wǎng)絡(luò)是隨時(shí)間變化的，所以可以表示成 T?個(gè)時(shí)刻的快照集合）
模型設(shè)計(jì)：

對于時(shí)刻的快照，用類似圖注意力網(wǎng)絡(luò)的方法聚合節(jié)點(diǎn)的周圍節(jié)點(diǎn)和邊的信息，不同之處在于這里因?yàn)槎嗔诉叺男畔?/span>。重復(fù)次，每個(gè)時(shí)刻快照上的節(jié)點(diǎn)都會獲得一個(gè)聚合了圖結(jié)構(gòu)信息的新表示。
有了每個(gè)時(shí)刻圖上節(jié)點(diǎn)的表示，文章利用類似LSTM的方式來獲取這些節(jié)點(diǎn)的時(shí)序信息。可以獲得每一個(gè)節(jié)點(diǎn)在每個(gè)時(shí)刻融合了時(shí)序信息的節(jié)點(diǎn)表示, 結(jié)合上面獲得，文章最后使用了一個(gè)注意力機(jī)制綜合這兩種表示，獲得每個(gè)節(jié)點(diǎn)的最終表示。

之后文章在螞蟻金服的信貸數(shù)據(jù)上做了貸款違約預(yù)測（鏈接預(yù)測：預(yù)測兩個(gè)節(jié)點(diǎn)之間是否存在邊）的任務(wù)，證實(shí)了模型的有效性。
--?https://zhuanlan.zhihu.com/p/348060075
--?Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining?螞蟻金服 IJCAI, 2020

【GNN框架】

在包含數(shù)十億用戶和產(chǎn)品的網(wǎng)絡(luò)上。支持高效的分布式圖存儲，對采樣過程進(jìn)行了優(yōu)化，同時(shí)內(nèi)部集成了很多GNN模型。該框架已成功用于公司的多種產(chǎn)品推薦和個(gè)性化搜索任務(wù)。
-- AliGraph: A Comprehensive Graph Neural Network Platform
https://arxiv.org/abs/1902.08730

3.2 IBM【比特幣洗錢識別】

使用GCN算法識別比特幣反洗錢
節(jié)點(diǎn)表示交易的實(shí)體，邊表示比特幣的交易流，其數(shù)據(jù)共計(jì)203,769筆節(jié)點(diǎn)交易以及234,355條邊。
使用模型

基于GCN的半監(jiān)督學(xué)習(xí)
Skip-GCN：多了一個(gè)“skip”變量，即將節(jié)點(diǎn)輸入特征X和網(wǎng)絡(luò)embedding特征共同進(jìn)行學(xué)習(xí)，其好處是相當(dāng)于在GCN中增加了一個(gè)LR的結(jié)構(gòu)。
EvolveGCN：GCN的時(shí)間模型是EvolveGCN，詳見《EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs》，捕捉圖的動態(tài)變化

https://zhuanlan.zhihu.com/p/85348013
--?Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics, 2019

3.3 北航【互聯(lián)網(wǎng)評論欺詐】

GraphConsis算法
賬戶的惡意/欺詐評論識別
本文主要通過鄰居節(jié)點(diǎn)距離進(jìn)行均衡采樣優(yōu)化，來針對風(fēng)控場景的一些Inconsistency問題。

1. Inconsistency?定義

Context Inconsistency：a. frauder 會通過建立正常連接來偽裝 b. 正樣本數(shù)量少
Feature Inconsistency:?節(jié)點(diǎn)特征差異性可能很大
Relation Inconsistency:?存在不同類型的邊會造成影響

2.?解決方案

通過引入可訓(xùn)練的Context Embedding，補(bǔ)充節(jié)點(diǎn)特征，?解決Context Inconsistency
通過節(jié)點(diǎn)特征相似度，過濾低相似度節(jié)點(diǎn)，提高采樣樣本中的節(jié)點(diǎn)特征一致性
通過Attention，對不同邊類型的鄰居節(jié)點(diǎn)增加權(quán)重影響

https://zhuanlan.zhihu.com/p/385173898
--?Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航

4??其他方向進(jìn)展

4.1 Uber Eats【餐廳推薦】

使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行產(chǎn)品推薦。典型的做法是對用戶和商品的交互關(guān)系進(jìn)行建模，然后通過某種負(fù)采樣損失學(xué)習(xí)節(jié)點(diǎn)嵌入，并通過kNN實(shí)時(shí)推薦給用戶相似產(chǎn)品。Uber Eats?公司很早就通過這樣的方式進(jìn)行產(chǎn)品推薦，具體而言，他們使用圖神經(jīng)網(wǎng)絡(luò)?GraphSage?為用戶推薦食品和餐廳。
-- https://eng.uber.com/uber-eats-graph-learning/
--?Food Discovery with Uber Eats: Using Graph Learning to Power Recommendations

4.2 網(wǎng)易音樂【音樂推薦】

通過圖神經(jīng)網(wǎng)絡(luò)，挖掘用戶的特征、歌曲的特征、用戶對歌曲的行為特征，實(shí)現(xiàn)精準(zhǔn)的音樂推薦。
圖中每個(gè)節(jié)點(diǎn)都具有結(jié)構(gòu)信息，如果用戶頻繁訂閱某種類別音樂或?qū)δ撤N類別音樂評分較高，那么系統(tǒng)就可以認(rèn)定該用戶對該類音樂比較感興趣，就可以向該用戶推薦更多該類別的音樂。
--?https://zhuanlan.zhihu.com/p/442309107

4.3 滴滴【車輛調(diào)控管理】

滴滴出行研究了一種基于時(shí)空多圖卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)約車需求量預(yù)測模型。
通過分析區(qū)域之間復(fù)雜的時(shí)空依賴關(guān)系，對網(wǎng)約車需求量進(jìn)行準(zhǔn)確預(yù)測，指導(dǎo)車輛的調(diào)度，提高車輛的利用率，減少等待時(shí)間，并在一定程度上緩解了交通的擁堵。
--?Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

4.4 阿里

【廣告推薦】

搜索廣告匹配
阿里媽媽利用圖神經(jīng)網(wǎng)絡(luò)，從用戶行為日志、內(nèi)容屬性等不同維度挖掘 Query（查詢詞）、Item（商品）和 Ad（廣告）的多種關(guān)系。
對于在線請求場景，通過計(jì)算用戶查詢詞向量、前置行為中節(jié)點(diǎn)向量和廣告節(jié)點(diǎn)向量之間的距離進(jìn)行高效的向量化最近鄰檢索，從而快速匹配到符合用戶意圖的廣告并推薦給用戶。

【淘寶推薦】

一篇關(guān)于結(jié)合知識圖譜應(yīng)用于大規(guī)模推薦的論文，成功應(yīng)用于線上淘寶APP場景且有明顯提升，推薦一讀。
當(dāng)前基于KG的推薦方法可以分為兩類：基于Path和基于GNN的方法。
基于Path的方法通過探索目標(biāo)user-item對在KG上的多個(gè)meta-path來預(yù)測用戶偏好。這是一種典型需要domain knowledge的方法，而且忽略了KG中豐富的結(jié)構(gòu)信息，因此不能充分刻畫給定user和item內(nèi)在的關(guān)系。
-- ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation?SIGIR, 2020
https://blog.csdn.net/abcdefg90876/article/details/106893937/

【推薦系統(tǒng)】

異構(gòu)圖表示學(xué)習(xí)
-- Representation Learning for Attributed Multiplex Heterogeneous Network ?阿里異構(gòu)Embedding?GATNE
論文詳解：
KDD2019 | 阿里GATNE：異構(gòu)圖的表示學(xué)習(xí)

4.5 Fabula?AI【假新聞檢測】

倫敦的初創(chuàng)公司Fabula?AI，使用GNN檢測假新聞等
https://arxiv.org/abs/1902.06673

4.6 Comodo 科摩多【惡意應(yīng)用識別】

通過構(gòu)建HIN抽關(guān)系特征，對安卓智能手機(jī)中的惡意應(yīng)用進(jìn)行識別。

實(shí)體：APP，API
關(guān)系：
1)Package關(guān)系（API-API）：API 共用package，用矩陣P表示
2)CodeBlock關(guān)系（API-API）: API 共用code block，用矩陣B表示
3)InvokeMethod關(guān)系（API-API）: API 共用invoke方法，用矩陣I表示
4)Contain關(guān)系（APP-API）：APP使用API，用矩陣A表示
--?HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network?KDD?2017

5??其他相關(guān)&參考資料

SIGIR2020推薦系統(tǒng)論文一覽：https://zhuanlan.zhihu.com/p/159742956

圖數(shù)據(jù)庫：https://zhuanlan.zhihu.com/p/210074511

圖計(jì)算在網(wǎng)易游戲中的應(yīng)用：https://zhuanlan.zhihu.com/p/370433730

*2021年，GNN+推薦系統(tǒng)/CV/物理/化學(xué)：https://blog.csdn.net/BAAIBeijing/article/details/112691028

*GNN 圖神經(jīng)網(wǎng)絡(luò) 2021 年的5大應(yīng)用熱點(diǎn)：https://zhuanlan.zhihu.com/p/346895359

*工業(yè)向反欺詐算法論文及解讀匯總：https://zhuanlan.zhihu.com/p/85155064

*開源分布式圖數(shù)據(jù)庫：https://zhuanlan.zhihu.com/p/152399147

螞蟻金服：GeaBase[1]
金融級圖數(shù)據(jù)庫，通過自定義類語言為業(yè)務(wù)方提供服務(wù)，全量計(jì)算下推，提供毫秒級延時(shí)。主要應(yīng)用于以下場景：
金融風(fēng)控場景：萬億級邊資金網(wǎng)絡(luò)，存儲實(shí)時(shí)交易信息，實(shí)時(shí)欺詐檢測。
推薦場景：股票證券推薦。
螞蟻森林：萬億級的圖存儲能力，低延時(shí)強(qiáng)一致關(guān)系數(shù)據(jù)查詢更新。
GNN：用于小時(shí)級 GNN 訓(xùn)練。嘗試動態(tài)圖 GNN 在線推理。
阿里巴巴：iGraph[2]
iGraph 是圖索引及查詢系統(tǒng)，存儲用戶的行為信息，是阿里數(shù)據(jù)中臺四駕馬車之一。通過 Gremlin 語言為業(yè)務(wù)方提供電商圖譜實(shí)時(shí)查詢。
今日頭條：ByteGraph[3]?
ByteGraph 通過在 kv 上增加統(tǒng)一 cache 層，關(guān)系數(shù)據(jù)拆分為 B+ 樹以應(yīng)對高效的邊訪問和采樣，類似 Facebook 的 TAO 。
騰訊高性能分布式圖計(jì)算框架柏拉圖[4]?

以上文中灰色鏈接部分也屬于參考文獻(xiàn)，此處不再贅述

綜述 | GNN金融風(fēng)控領(lǐng)域業(yè)界進(jìn)展調(diào)研