<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          實(shí)戰(zhàn) | 異常檢測(cè)與多場(chǎng)景應(yīng)用

          共 1951字,需瀏覽 4分鐘

           ·

          2022-07-27 17:46

          異常檢測(cè)概述:

          異常檢測(cè)(anomaly detection),也叫異常分析(outlier analysis或者outlier detection)或者離群值檢測(cè),在工業(yè)上有非常廣泛的應(yīng)用場(chǎng)景:

          金融業(yè):從海量數(shù)據(jù)中找到“欺詐案例”,如信用卡反詐騙,識(shí)別虛假信貸

          網(wǎng)絡(luò)安全:從流量數(shù)據(jù)中找到“侵入者”,識(shí)別新的網(wǎng)絡(luò)入侵模式

          在線零售:從交易數(shù)據(jù)中發(fā)現(xiàn)“惡意買(mǎi)家”,比如惡意刷評(píng)等

          生物基因:從生物數(shù)據(jù)中檢測(cè)“病變”或“突變”

          同時(shí)它可以被用于機(jī)器學(xué)習(xí)任務(wù)中的預(yù)處理(preprocessing),防止因?yàn)樯倭慨惓|c(diǎn)存在而導(dǎo)致的訓(xùn)練或預(yù)測(cè)失敗。換句話來(lái)說(shuō),異常檢測(cè)就是從茫茫數(shù)據(jù)中找到那些“長(zhǎng)得不一樣”的數(shù)據(jù)。

          但檢測(cè)異常過(guò)程一般都比較復(fù)雜,而且實(shí)際情況下數(shù)據(jù)一般都沒(méi)有標(biāo)簽(label),我們并不知道哪些數(shù)據(jù)是異常點(diǎn),所以一般很難直接用簡(jiǎn)單的監(jiān)督學(xué)習(xí)。異常值檢測(cè)還有很多困難,如極端的類(lèi)別不平衡、多樣的異常表達(dá)形式、復(fù)雜的異常原因分析等。

          異常值不一定是壞事。例如,如果在生物學(xué)中實(shí)驗(yàn),一只老鼠沒(méi)有死,而其他一切都死,那么理解為什么會(huì)非常有趣,這可能會(huì)帶來(lái)新的科學(xué)發(fā)現(xiàn)。因此,檢測(cè)異常值非常重要。

          Python Outlier Detection(PyOD)是一個(gè)Python異常檢測(cè)工具庫(kù),除了支持Sklearn上支持的四種模型外,還額外提供了很多模型如:

          傳統(tǒng)異常檢測(cè)方法:HBOS、PCA、ABOD和Feature Bagging等,基于深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的異常檢測(cè):自編碼器(keras實(shí)現(xiàn)) ,其主要亮點(diǎn)包括:

          1.包括近20種常見(jiàn)的異常檢測(cè)算法,比如經(jīng)典的LOF/LOCI/ABOD以及最新的深度學(xué)習(xí)如對(duì)抗生成模型(GAN)和集成異常檢測(cè)(outlier ensemble)

          2.所有算法共享通用的API,方便快速調(diào)包,同時(shí)支持Python2和3,支持多種操作系統(tǒng):windows,macOS和Linux

          3.代碼經(jīng)過(guò)了重重優(yōu)化,大部分模型通過(guò)了并行與即時(shí)編譯。使用JIT和并行化(parallelization)進(jìn)行優(yōu)化,加速算法運(yùn)行及擴(kuò)展性(scalability),可以處理大量數(shù)據(jù)

          4.提供了詳細(xì)的文檔以及大量例子,方便快速上手

          典型算法介紹:

          Angle-Based Outlier Detection(ABOD)

          它考慮每個(gè)點(diǎn)與其鄰居之間的關(guān)系,它沒(méi)有考慮這些鄰居之間的關(guān)系,其加權(quán)余弦分?jǐn)?shù)與所有鄰居的方差可視為偏離分?jǐn)?shù)

          ABOD在多維數(shù)據(jù)上表現(xiàn)良好

          PyOD提供兩種不同版本的ABOD:

          快速ABOD:使用k近鄰來(lái)近似
          原始ABOD:考慮所有具有高時(shí)間復(fù)雜性的訓(xùn)練點(diǎn)
          k-Nearest Neighbors Detector
          對(duì)于任何數(shù)據(jù)點(diǎn),到第k個(gè)最近鄰居的距離可以被視為遠(yuǎn)離分?jǐn)?shù)
          PyOD支持三個(gè)kNN探測(cè)器:

          最大:使用第k個(gè)鄰居的距離作為離群值

          均值:使用所有k個(gè)鄰居的平均值作為離群值得分

          中位數(shù):使用與鄰居的距離的中位數(shù)作為離群值得分

          Isolation Forest
          它在內(nèi)部使用scikit-learn庫(kù)。在此方法中,使用一組樹(shù)完成數(shù)據(jù)分區(qū)。隔離森林提供了一個(gè)異常分?jǐn)?shù),用于查看結(jié)構(gòu)中點(diǎn)的隔離程度。然后使用異常分?jǐn)?shù)來(lái)識(shí)別來(lái)自正常觀察的異常值
          隔離森林在多維數(shù)據(jù)上表現(xiàn)良好
          Histogram-based Outlier Detection
          這是一種有效的無(wú)監(jiān)督方法,它假設(shè)特征獨(dú)立并通過(guò)構(gòu)建直方圖來(lái)計(jì)算異常值
          它比多變量方法快得多,但代價(jià)是精度較低
          Local Correlation Integral(LOCI)
          LOCI對(duì)于檢測(cè)異常值和異常值組非常有效。它為每個(gè)點(diǎn)提供LOCI圖,總結(jié)了該點(diǎn)周?chē)鷧^(qū)域內(nèi)數(shù)據(jù)的大量信息,確定了簇,微簇,它們的直徑以及它們的簇間距離
          現(xiàn)有的異常檢測(cè)方法都不能匹配此功能,因?yàn)樗鼈冎粸槊總€(gè)點(diǎn)輸出一個(gè)數(shù)字
          Feature Bagging
          功能裝袋檢測(cè)器在數(shù)據(jù)集的各種子樣本上安裝了許多基本檢測(cè)器,它使用平均或其他組合方法來(lái)提高預(yù)測(cè)精度
          默認(rèn)情況下,Local Outlier Factor(LOF)用作基本估算器。但是,任何估計(jì)器都可以用作基本估計(jì)器,例如kNN和ABOD
          特征裝袋首先通過(guò)隨機(jī)選擇特征子集來(lái)構(gòu)造n個(gè)子樣本,這帶來(lái)了基本估計(jì)的多樣性。最后,通過(guò)平均或取所有基本檢測(cè)器的最大值來(lái)生成預(yù)測(cè)分?jǐn)?shù)
          Clustering Based Local Outlier Factor
          它將數(shù)據(jù)分為小型集群和大型集群,然后根據(jù)點(diǎn)所屬的簇的大小以及到最近的大簇的距離來(lái)計(jì)算異常分?jǐn)?shù)
          掃下方二維碼學(xué)習(xí)數(shù)字化轉(zhuǎn)型項(xiàng)目:
          瀏覽 36
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产成人一区二区三区A片免费 | 操女生网站 | 麻豆三级片 | 五月婷丁香久久 | 欧美怡红院视频一区二区三区 |