異常檢測(cè)(Anomaly Detection)綜述
點(diǎn)擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
導(dǎo)讀
異常檢測(cè)是一個(gè)發(fā)現(xiàn)“少數(shù)派”的過(guò)程,本文將目前深度學(xué)習(xí)的異常檢測(cè)的熱門研究方向進(jìn)行了分類,并列舉了對(duì)應(yīng)的文章,并推薦了值得一讀的8篇新穎論文,幫助大家理解學(xué)習(xí)異常檢測(cè)這一領(lǐng)域。
一、簡(jiǎn)介
異常檢測(cè)一直是機(jī)器學(xué)習(xí)中一個(gè)非常重要的子分支,在各種人工智能落地應(yīng)用例如計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘、NLP中,異常檢測(cè)算法都是很熱門的研究方向,特別是大數(shù)據(jù)時(shí)代,人工處理數(shù)據(jù)的速度已經(jīng)遠(yuǎn)遠(yuǎn)趕不上機(jī)器了,所以更快地檢測(cè)數(shù)據(jù)中的異常情況成為了我們當(dāng)下非常重要的任務(wù)。在深度學(xué)習(xí)廣泛的推廣之前,傳統(tǒng)的異常檢測(cè)算法有很多,例如高斯擬合,半監(jiān)督學(xué)習(xí)等等,而在深度學(xué)習(xí)大火之后,人們也開始研究將深度學(xué)習(xí)應(yīng)用于各種異常任務(wù)中(也就是Deep Anomaly Detection,以下統(tǒng)稱DAD),并取得了很大的成功,本文將把當(dāng)下該方向熱門的研究方向分類并列舉了對(duì)應(yīng)的文章,希望能幫助大家更好地理解此方向的研究。
二、異常檢測(cè)的概念
異常檢測(cè),從定義而言就是一種識(shí)別不正常情況與挖掘非邏輯數(shù)據(jù)的技術(shù),也叫outliers。例如在計(jì)算機(jī)視覺(jué)的應(yīng)用中,有人在抖音發(fā)表一個(gè)視屏,在邊騎車邊打電話,那這就是個(gè)不符合規(guī)范的視屏,我們能否采用一些方式來(lái)將其檢測(cè)出來(lái),再例如在數(shù)據(jù)挖掘領(lǐng)域中,那異常檢測(cè)的應(yīng)用就更廣泛了,比如信用卡盜刷,超大金額支出等等。通常情況下,在我們閱讀論文的過(guò)程中,異常檢測(cè)(Anomaly Detection)也被叫做,Novelty Detection,Outlier Detection,F(xiàn)orgery Detection,Out-of-distribution Detection。在閱讀論文的情況,這些名詞也有輕微的區(qū)別,以計(jì)算機(jī)視覺(jué)為例,如下圖所示。
在計(jì)算機(jī)視覺(jué)的基本任務(wù)——圖像分類中,單分類與多分類問(wèn)題,將幾種概念的細(xì)微區(qū)別基本闡述清楚了。Anomaly Detection指在不屬于該分類的數(shù)據(jù)集中,而Novelty是檢測(cè)可能屬于該分類但卻沒(méi)見過(guò)(Unseen)也就是Novel的數(shù)據(jù)集,而OOD(out-of-distribution)則是多分類中不同目標(biāo)的分布,這些任務(wù)在接下來(lái)的論文中,也經(jīng)常有人進(jìn)行相應(yīng)的研究。
三、異常檢測(cè)相關(guān)工作與方向
首先根據(jù)查閱異常檢測(cè)方向綜述的文章,我將基于深度學(xué)習(xí)的異常檢測(cè)應(yīng)用方向論文,按照主要的邏輯結(jié)構(gòu)列舉在了下面,我相信這可以更加方便地向你展示異常檢測(cè)方向你應(yīng)該怎樣去研究你的論文。
1. DAD研究的主要元素
(1) 異常數(shù)據(jù)集
-
點(diǎn)集 -
連續(xù)集 -
團(tuán)隊(duì)集
(2) 異常檢測(cè)模型
-
無(wú)監(jiān)督學(xué)習(xí)、AutoEncoder、GAN、矩陣因子分解 -
半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí) -
Hybrid(混種)、特征提取+傳統(tǒng)算法 -
單分類神經(jīng)網(wǎng)絡(luò)
(3) 異常檢測(cè)應(yīng)用
-
詐騙檢測(cè) -
網(wǎng)絡(luò)侵入檢測(cè) -
醫(yī)學(xué)異常檢測(cè) -
傳感器網(wǎng)絡(luò)異常檢測(cè) -
視屏監(jiān)督 -
物聯(lián)網(wǎng)大數(shù)據(jù)異常檢測(cè) -
日志異常檢測(cè) -
工業(yè)危害檢測(cè)
2. 異常檢測(cè)論文分類
下面也是我根據(jù)參考文獻(xiàn),把異常檢測(cè)論文分成幾個(gè)當(dāng)前研究方向,相當(dāng)于列出了一個(gè)目錄在這里,可供之后方便查看,關(guān)于論文分類的一些概念,我會(huì)在下面的介紹中詳細(xì)提及。
(1) 數(shù)據(jù)的連續(xù)性
(2) 數(shù)據(jù)標(biāo)簽的可用性
-
監(jiān)督學(xué)習(xí)Supervised Learning -
半監(jiān)督學(xué)習(xí)Semi-supervised Learning -
無(wú)監(jiān)督學(xué)習(xí)Unsupervised Learning
(3) 基于訓(xùn)練對(duì)象的模型
-
深度混種模型Deep Hybrid Model(DHM) -
單分類神經(jīng)網(wǎng)絡(luò)One-Class Neural Networks(OC-NN)
(4) 數(shù)據(jù)異常類型
-
點(diǎn)集Point -
連續(xù)集Contextual -
團(tuán)隊(duì)集Collective or Group
(5) 異常檢測(cè)輸出類型
-
異常分?jǐn)?shù)Anomaly Score -
標(biāo)簽Lable
(6) 異常檢測(cè)應(yīng)用
有將近十種異常檢測(cè)相關(guān)的應(yīng)用,由于目前對(duì)該部分研究較淺,所以之后會(huì)考慮單獨(dú)寫篇文章來(lái)總結(jié)異常檢測(cè)方面的應(yīng)用型論文。
四、原始數(shù)據(jù)的連續(xù)性Nature of Input Data
在DAD問(wèn)題中選擇怎樣的網(wǎng)絡(luò)結(jié)構(gòu)很大部分取自于原始數(shù)據(jù)(raw/input data)的類型,原始數(shù)據(jù)在廣義上我們可以分為連續(xù)型(Sequential)與非連續(xù)型(Non-sequential),如何選擇相應(yīng)的模型,我列舉在下表中。
| 原始數(shù)據(jù)類型 | 舉例 | DAD模型選擇 |
|---|---|---|
| 連續(xù)型Sequential | 視屏,DNA序列,自然語(yǔ)言文本 | CNN,RNN,LSTM |
| 非連續(xù)型Non-sequential | 圖片,傳感器 | CNN,AE及其變種 |
DAD在未降維的高維原始數(shù)據(jù)中表現(xiàn)優(yōu)異,成功提取大規(guī)模數(shù)據(jù)的關(guān)系,通常情況下,網(wǎng)絡(luò)越深,提取效果越好,這個(gè)部分感興趣的話可以參考下面這篇文章。
-
Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, 521(7553):436, 2015.
五、數(shù)據(jù)標(biāo)簽的可用性Availability of Labels
數(shù)據(jù)標(biāo)簽是非常重要的事情,標(biāo)簽代表著正常(normal)數(shù)據(jù)或是未見過(guò)(unseen/novel)的數(shù)據(jù),對(duì)于標(biāo)簽內(nèi)容的使用同樣是現(xiàn)在異常檢測(cè)方向論文重點(diǎn)考慮的事情。異常檢測(cè)的模型也可以根據(jù)數(shù)據(jù)標(biāo)簽的內(nèi)容廣義的分為三類,監(jiān)督,半監(jiān)督和無(wú)監(jiān)督。
1. 監(jiān)督Supervised DAD
基于監(jiān)督學(xué)習(xí)的DAD文章,整理了兩篇醫(yī)學(xué)方向的,由于監(jiān)督學(xué)習(xí)對(duì)于標(biāo)簽內(nèi)容的依賴度過(guò)重,所以他對(duì)于異常檢測(cè)的問(wèn)題并不是那么合適,所以它并不如半監(jiān)督和無(wú)監(jiān)督應(yīng)用地那么廣泛。
-
Raghavendra Chalapathy, Ehsan Zare Borzeshi, and Massimo Piccardi. An investigation of recurrent neural architectures for drug name recognition. arXiv preprint arXiv:1609.07585, 2016a. -
Raghavendra Chalapathy, Ehsan Zare Borzeshi, and Massimo Piccardi. Bidirectional lstm-crf for clinical concept extraction. arXiv preprint arXiv:1611.08373, 2016b.
2. 半監(jiān)督Semi-supervised DAD
由于正常數(shù)據(jù)集比異常數(shù)據(jù)集更好獲得,所以半監(jiān)督學(xué)習(xí)DAD方法被非常廣泛的使用,擁有了足夠的數(shù)據(jù)集,我們能更好地標(biāo)出正常數(shù)據(jù),異常數(shù)據(jù),新數(shù)據(jù)的界限,半監(jiān)督學(xué)習(xí)模型列舉三篇論文。
-
Drausin Wulsin, Justin Blanco, Ram Mani, and Brian Litt. Semi-supervised anomaly detection for eeg waveforms using deep belief nets. In Machine Learning and Applications (ICMLA), 2010 Ninth International Conference on, pages 436–441. IEEE, 2010. -
Mutahir Nadeem, Ochaun Marshall, Sarbjit Singh, Xing Fang, and Xiaohong Yuan. Semi-supervised deep neural network for network intrusion detection. 2016. -
Hongchao Song, Zhuqing Jiang, Aidong Men, and Bo Yang. A hybrid semi-supervised anomaly detection model for high-dimensional data. Computational intelligence and neuroscience, 2017.
3. 無(wú)監(jiān)督Unsupervised DAD
傳統(tǒng)機(jī)器學(xué)習(xí)算法其實(shí)我感覺(jué)更傾向于直接從數(shù)據(jù)集中讓機(jī)器去學(xué)習(xí)一些東西,然后直接用參數(shù)的方式表示出來(lái),異常檢測(cè)問(wèn)題同樣我們也用自動(dòng)標(biāo)簽的方式去檢測(cè)是否異常,因?yàn)橛袝r(shí)候可能數(shù)據(jù)難以獲取。自動(dòng)解碼器是無(wú)監(jiān)督DAD的核心,所以這里深度學(xué)習(xí)的一些神經(jīng)網(wǎng)絡(luò)大有可為,例如RNN,LSTM等等。我們這里只列舉了一種采用變種半監(jiān)督學(xué)習(xí)方法的論文,應(yīng)用于異常數(shù)據(jù)降維,表現(xiàn)效果超越很多傳統(tǒng)降維算法,如PCA,Isolation等等。
-
Aaron Tuor, Samuel Kaplan, Brian Hutchinson, Nicole Nichols, and Sean Robinson. Deep learning for unsupervised insider threat detection in structured cybersecurity data streams. arXiv preprint arXiv:1710.00811, 2017.
六、基于訓(xùn)練對(duì)象的模型
按照訓(xùn)練對(duì)象的區(qū)別,我們把訓(xùn)練模型單獨(dú)劃分為兩類,變種模型與單分類神經(jīng)網(wǎng)絡(luò)。
1. 深度變種模型Deep Hybrid Models(DHM)
-
Jerone TA Andrews, Edward J Morton, and Lewis D Griffin. Detecting anomalous data using auto-encoders. International Journal of Machine Learning and Computing, 6(1):21, 2016a. -
Tolga Ergen, Ali Hassan Mirza, and Suleyman Serdar Kozat. Unsupervised and semi-supervised anomaly detection with lstm neural networks. arXiv preprint arXiv:1710.09207, 2017.
2. 單分類神經(jīng)網(wǎng)絡(luò)One-Class Neural Networks(OC-NN)
-
Raghavendra Chalapathy, Aditya Krishna Menon, and Sanjay Chawla. Anomaly detection using one-class neural networks. arXiv preprint arXiv:1802.06360, 2018a.
七、數(shù)據(jù)異常類型
1. 點(diǎn)集Point
舉信用卡盜刷的例子,點(diǎn)集異常就是指單筆交易大金額支出,比如你都花1塊2塊的錢,突然有一天消費(fèi)了1k,那可能就出現(xiàn)了異常情況,但這個(gè)方向好像沒(méi)有人單獨(dú)發(fā)過(guò)文章。
2. 連續(xù)集Contextual or Conditional
連續(xù)集就是指上下文相關(guān)的連續(xù)數(shù)據(jù),某一個(gè)中間數(shù)據(jù)出現(xiàn)了異常情況,可能引起了梯度消失爆炸等等問(wèn)題。
-
Xiuyao Song, Mingxi Wu, Christopher Jermaine, and Sanjay Ranka. Conditional anomaly detection. IEEE Transactions on Knowledge and Data Engineering, 19(5):631–645, 2007.
3. 團(tuán)隊(duì)集Collective or Group
還是信用卡盜刷的例子,如果某天你的信用卡突然短時(shí)間內(nèi)不停地消費(fèi)50元,那機(jī)器可能會(huì)發(fā)現(xiàn),這些團(tuán)隊(duì)數(shù)據(jù)集的消費(fèi)出現(xiàn)了異常,這種情況我們也在其他場(chǎng)合經(jīng)常遇到。
-
Raghavendra Chalapathy, Edward Toth, and Sanjay Chawla. Group anomaly detection using deep generative models. arXiv preprint arXiv:1804.04876, 2018b. -
Lo¨?c Bontemps, James McDermott, Nhien-An Le-Khac, et al. Collective anomaly detection based on long short-term memory recurrent neural networks. In International Conference on Future Data and Security Engineering, pages 141–152. Springer, 2016. -
Daniel B Araya, Katarina Grolinger, Hany F ElYamany, Miriam AM Capretz, and G Bitsuamlak. Collective contextual anomaly detection framework for smart buildings. In Neural Networks (IJCNN), 2016 International Joint Conference on, pages 511–518. IEEE, 2016. -
Naifan Zhuang, Tuoerhongjiang Yusufu, Jun Ye, and Kien A Hua. Group activity recognition with differential recurrent convolutional neural networks. In Automatic Face & Gesture Recognition (FG 2017), 2017 12th IEEE International Conference on, pages 526–531. IEEE, 2017.
八、idea新穎的論文
這里我再給大家推薦8篇idea比較新穎的論文,可供大家閱讀與交流。
[1] Liu W, Luo W, Lian D, et al. Future frame prediction for anomaly detection–a new baseline[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6536-6545.
[2] Gong D, Liu L, Le V, et al. Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 1705-1714.
[3] Park H, Noh J, Ham B. Learning Memory-guided Normality for Anomaly Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 14372-14381.
[4] Zhao Y, Deng B, Shen C, et al. Spatio-temporal autoencoder for video anomaly detection[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 1933-1941.
[5] Ionescu R T, Khan F S, Georgescu M I, et al. Object-centric auto-encoders and dummy anomalies for abnormal event detection in video[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 7842-7851.
[6] Liu W, Luo W, Li Z, et al. Margin Learning Embedded Prediction for Video Anomaly Detection with A Few Anomalies[C]//IJCAI. 2019: 3023-3030.
[7] Sultani W, Chen C, Shah M. Real-world anomaly detection in surveillance videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6479-6488.
[8] Luo W, Liu W, Gao S. A revisit of sparse coding based anomaly detection in stacked rnn framework[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 341-349.
九、最后總結(jié)
最后給大家推薦一個(gè)超級(jí)nice的github倉(cāng)庫(kù),里面的文章都比較新,并且也進(jìn)行了一些分類。
https://github.com/hoya012/awesome-anomaly-detection
下載1:OpenCV黑魔法
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):速查表,即可下載21張 AI相關(guān)的查找表,包括 python基礎(chǔ),線性代數(shù),scipy科學(xué)計(jì)算,numpy,kears,tensorflow等等
下載2 CVPR2020
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR2020,即可下載1467篇CVPR 2020論文 個(gè)人微信(如果沒(méi)有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
覺(jué)得有趣就點(diǎn)亮在看吧

