<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          微信支付基于圖計(jì)算的反欺詐實(shí)踐

          共 6424字,需瀏覽 13分鐘

           ·

          2021-09-06 12:57

          來源:DataFunTalk

          本文約5800字,建議閱讀10分鐘

          本文為大家分享一些關(guān)于圖計(jì)算應(yīng)用的經(jīng)驗(yàn)。


          [ 導(dǎo)讀 ]微信支付作為一個(gè)國民級(jí)工具,用戶量級(jí)很大,而且用戶黏性也很強(qiáng),這么多用戶每天在用,就會(huì)產(chǎn)生大量的交易、連接。黑產(chǎn)對技術(shù)的嗅覺是非常靈敏的,如果一個(gè)產(chǎn)品連黑產(chǎn)都沒有關(guān)注的話,那這個(gè)產(chǎn)品很難稱之為好產(chǎn)品。


          我們每天也和微信支付大量的黑灰用戶對抗,而且是在一個(gè)十億結(jié)點(diǎn),萬億邊的網(wǎng)絡(luò)進(jìn)行對抗,因此我們需要用到網(wǎng)絡(luò)化的利器:圖算法和圖數(shù)據(jù)庫。這次分享,希望把我們之前的圖計(jì)算應(yīng)用的一些經(jīng)驗(yàn),還有一路走過的坑,跟各位分享。主要內(nèi)容包括:① 風(fēng)控新視角;② 圖計(jì)算平臺(tái);③ 支付的實(shí)踐;④ 科技向善成果。


          01 風(fēng)控新視角


          1. 風(fēng)控的全新視角:各種騙術(shù)層出不窮


          最近有一位國外的馬老師(馬斯克)很火,雖然他的產(chǎn)品在國內(nèi)爭議非常大,但是在美國,捧誰誰火,比如狗狗幣推成天狗,帶貨能力非常強(qiáng),這種一夜暴富的情緒傳到國內(nèi),會(huì)發(fā)現(xiàn)如果平時(shí)聊天不聊“幣”,可能跟朋友就聊不下去了。所以最近發(fā)現(xiàn)詐騙份子利用這一點(diǎn),推出各種比如空氣幣傳銷幣等,這些都是新型的資金盤,也成了我們最近風(fēng)控反詐的熱點(diǎn)。


          2. 特征工程還是網(wǎng)絡(luò)工程



          正因?yàn)橛懈黝悓映霾桓F的新型詐騙手法,我們馬上就會(huì)碰到一個(gè)痛點(diǎn):用戶畫像、特征工程不好使了,以我們微信支付為例,我們這么多年也是在不斷的往上堆特征,特征數(shù)量已經(jīng)達(dá)到了6位數(shù),這時(shí)你會(huì)發(fā)現(xiàn)特征堆積的越多,效果提升的其實(shí)并不明顯,這是第一個(gè)問題,另一個(gè)問題是,特征堆積的越多,成本會(huì)越高,如右圖的指數(shù)曲線一樣。



          舉個(gè)用戶畫像的例子,比如研究一個(gè)人的消費(fèi)習(xí)慣,之前按照天分析,后來會(huì)按小時(shí)去分析,或者說發(fā)現(xiàn)兩個(gè)畫像特征特別有用,會(huì)考慮把兩者結(jié)合起來,做一個(gè)交叉特征,這樣特征數(shù)量也會(huì)漲的特別快,特征數(shù)量增長會(huì)帶來很多問題,首先是存儲(chǔ)的問題,還有特征管理的問題,包括配置特征告警、特征穩(wěn)定性、生命周期等等,這一系列的配套工程會(huì)讓我們的成本越來越高,所以從個(gè)體的特征工程到全局的網(wǎng)絡(luò)工程的轉(zhuǎn)變,會(huì)給我們帶來新的視角,新的知識(shí)。


          3. 網(wǎng)絡(luò)視角:個(gè)人 vs 團(tuán)伙



          另外一個(gè)視角是我們看待黑產(chǎn)是個(gè)體還是團(tuán)伙,以前我們印象中黑產(chǎn)可能是一個(gè)非常聰明、技術(shù)非常好的獨(dú)來獨(dú)往的黑客,深諳SQL注入、DDOS攻擊等技術(shù),通過各種手段敲詐勒索很多錢。實(shí)際上從警情案例來看,黑產(chǎn)大多是右圖的這種情況:團(tuán)隊(duì)有很多頂尖的技術(shù)人才、甚至還有北大畢業(yè)的、不少黑產(chǎn)躲在山溝里辦公,反偵意識(shí)很強(qiáng),黑產(chǎn)頭目很會(huì)打雞血,內(nèi)部分工明確,還有大量的手機(jī)卡、貓池,身份證和銀行卡等作案工具。互聯(lián)網(wǎng)崇尚合作,所以現(xiàn)在黑產(chǎn)更多的是團(tuán)伙作案,所以我們就需要從個(gè)體視角轉(zhuǎn)換到團(tuán)伙視角,而且要相信團(tuán)體能量遠(yuǎn)比個(gè)體大得多。


          拿我們自己舉個(gè)例子,如果我們只關(guān)注個(gè)人的技術(shù)成長,我們對行業(yè),對社會(huì)的影響力就比較小,但如果我們有勇氣走出去,和外界建立更多的連接,我們對社會(huì)的影響力就大,這里也感謝DataFun提供這么好的平臺(tái),讓我們能跟更多的同行建立起連接。


          4. 網(wǎng)絡(luò)建設(shè):點(diǎn)線面怎么鋪開



          既然對抗新形勢下的風(fēng)控需要用網(wǎng)絡(luò)去做,問大家一個(gè)問題,大家覺得理解網(wǎng)絡(luò)難不難?如果研究一個(gè)個(gè)體難度為10分,大家覺得研究一個(gè)關(guān)系對難度是多少分?答案是100分,因?yàn)槭莾蓛芍g產(chǎn)生互動(dòng),特征產(chǎn)生交叉,所以是10*10=100分。如果是一個(gè)100人的團(tuán)伙,研究網(wǎng)絡(luò)難度最大是多少?答案大概是100分乘以10000倍,因?yàn)槭?00個(gè)結(jié)點(diǎn)的全連通圖最多會(huì)形成9900條邊。即便對于這種節(jié)點(diǎn)數(shù)不多的圖,研究網(wǎng)絡(luò)的難度可以是研究個(gè)體的難度的10萬倍,所以我們研究網(wǎng)絡(luò)時(shí),既要認(rèn)識(shí)到它對風(fēng)控有巨大的收益,也要理解研究網(wǎng)絡(luò)難度是非常大的。


          02 圖計(jì)算平臺(tái)


          主要介紹微信支付圖數(shù)據(jù)平臺(tái)的建設(shè)和經(jīng)驗(yàn)。


          1. 微信支付圖數(shù)據(jù)計(jì)算平臺(tái):三駕馬車



          圖數(shù)據(jù)計(jì)算平臺(tái)有三駕馬車,第一駕馬車是圖計(jì)算引擎,第二駕馬車是存儲(chǔ)引擎,也就是圖數(shù)據(jù)庫,第三駕馬車是算法設(shè)計(jì),也就是是針對業(yè)務(wù)去設(shè)計(jì)算法。


          2. 微信支付合作共建的圖計(jì)算平臺(tái)


          安利兩個(gè)好用的圖計(jì)算平臺(tái),都是騰訊開源且在GitHub高星的項(xiàng)目,一個(gè)是Angel,一個(gè)是Plato(柏拉圖),我們都有參與共建。


          • Angel是一個(gè)通用的、完整的大數(shù)據(jù)平臺(tái),不僅有圖算法,還有傳統(tǒng)的機(jī)器學(xué)習(xí)算法,是一個(gè)非常通用的計(jì)算平臺(tái),也是Apache的一個(gè)頂級(jí)項(xiàng)目。

          • Plato是微信部門自己研發(fā)的專注圖計(jì)算的平臺(tái),底層借鑒了Gemini等優(yōu)秀的圖計(jì)算系統(tǒng)設(shè)計(jì)。


          這兩個(gè)平臺(tái)都有相應(yīng)的開源項(xiàng)目,大家可以下載使用。對于大多數(shù)公司來說,開箱即用就會(huì)有一個(gè)比較好的效果,而且他們技術(shù)咨詢服務(wù)也做的不錯(cuò)。


          3. 圖計(jì)算平臺(tái):為什么速度是第一考慮



          這里分享一個(gè)經(jīng)驗(yàn):我們在選用圖計(jì)算平臺(tái)時(shí),首先考慮的是速度,其次是不折騰。舉一個(gè)我自己日常跑算法的例子:在某個(gè)風(fēng)控場景針對某一批數(shù)據(jù)樣本訓(xùn)練某一個(gè)圖算法,就需要做大量實(shí)驗(yàn)(用不同的參數(shù)組合,如圖所示),還不包括前面的預(yù)演和后面的上線。第一個(gè)實(shí)驗(yàn)的第一輪花費(fèi)3000多秒,也就是大概一個(gè)小時(shí),到最后第七組的實(shí)驗(yàn)參數(shù),50輪花了大概8到10個(gè)小時(shí),所以可以看到在做算法實(shí)驗(yàn)的時(shí)候,如果沒有好的計(jì)算平臺(tái)保證運(yùn)行速度,就很難得到一個(gè)較優(yōu)的結(jié)果。


          比如圖中的上半部分,訓(xùn)練的輪次越多,效果反而越差;而我們期望是得到下半部分的結(jié)果:隨著訓(xùn)練迭代次數(shù)增加、效果越來越好,但這種參數(shù)組合可能要實(shí)驗(yàn)非常多次才能得到。這也告訴我們圖算法上限是非常高的,需要反復(fù)不斷去嘗試才能把它用好,因此計(jì)算速度是擺在第一位的。


          4. 圖數(shù)據(jù)庫:高效分析案例的利器



          我們之前跟公司的Angel團(tuán)隊(duì)合作共建了騰訊的圖數(shù)據(jù)庫EasyGraph,它可以做到更好的查詢和更直觀的展現(xiàn),這樣我們分析案例,特別是挖掘團(tuán)伙就非常方便了。


          舉個(gè)例子:左邊是我們?nèi)粘慡QL去跑,花了17分鐘,右邊使用圖數(shù)據(jù)庫查詢,只花了1秒鐘,而且把關(guān)系網(wǎng)絡(luò)做了非常直觀的展現(xiàn),EasyGraph底層是借鑒S2Graph圖數(shù)據(jù)庫進(jìn)行開發(fā)的,這是我們內(nèi)部使用的其中一個(gè)圖數(shù)據(jù)庫;外部的圖數(shù)據(jù)庫個(gè)人推薦的是TigerGraph,我們通過支付的數(shù)據(jù)去對比市面上的幾款圖數(shù)據(jù)庫,TigerGraph無論是單機(jī)還是分布式模式,性能都是很優(yōu)秀的。


          5. 圖算法設(shè)計(jì):基于業(yè)務(wù)去思考和創(chuàng)新


          圖算法設(shè)計(jì)方面,我們主要做了以下探索:包括團(tuán)伙識(shí)別、圖神經(jīng)網(wǎng)絡(luò)、傳播染色、異常檢測,這幾類算法都是針對我們自己的業(yè)務(wù)去思考和創(chuàng)新的。


          03 圖計(jì)算的實(shí)踐


          1. 樣本增強(qiáng)



          我們平時(shí)參加Kaggle算法競賽,比較頭疼的是樣本通常很少;對于風(fēng)控場景的建模,這個(gè)問題可能更加嚴(yán)重:樣本少,或者很難收集到高質(zhì)量的樣本,就算在外面購買,質(zhì)量也不一能保證或者適用我們的場景,但是風(fēng)控場景的復(fù)雜性本身又需要大量的數(shù)據(jù)才能學(xué)習(xí)到好的模型,一個(gè)數(shù)據(jù)增強(qiáng)的好辦法就是通過網(wǎng)絡(luò)關(guān)系去實(shí)現(xiàn)。吳軍曾經(jīng)提到Google挖了一位做NLP的教授,任務(wù)是提高中日英翻譯的準(zhǔn)確率,他的做法跟以前優(yōu)化模型的思路不一樣,不斷搜集數(shù)據(jù),拿到比以往建模多一萬倍的數(shù)據(jù),這讓他一下領(lǐng)先了第二名5個(gè)點(diǎn),而此前每年的進(jìn)步大概是0.5個(gè)點(diǎn),換言之他已經(jīng)領(lǐng)先第二名十年,這就是樣本增強(qiáng)的一個(gè)價(jià)值。


          所以遇到樣本少的情況,可以通過復(fù)雜網(wǎng)絡(luò)做一個(gè)”lookalike”,找出跟樣本相似的用戶,這往往對訓(xùn)練模型有很大的幫助。


          2. 傳播染色



          跟傳播有關(guān)的算法,最著名的應(yīng)該是PageRank了,一個(gè)算法讓Google從一個(gè)很小的公司變成了互聯(lián)網(wǎng)巨頭。舉個(gè)身邊傳播染色的例子,有位同事發(fā)現(xiàn)最近門禁掃臉的時(shí)候經(jīng)常掃不出來,因?yàn)楸热肼毜臅r(shí)候長胖了一圈,互聯(lián)網(wǎng)員工長胖的原因通常都是因?yàn)榧影喽啵艘坏酵砩献钥亓蜁?huì)降低,很難拒絕高卡路里的食物,一開始我們招呼他去吃炸雞他也是拒絕的,但最后變成是他最積極了。所以說壞習(xí)慣傳播的是非常快的,如果你在一個(gè)群體里,有很多習(xí)性不好的人,你可能很容易被影響。我們在風(fēng)控場景做傳播,染色擴(kuò)散的時(shí)候會(huì)用到這樣的思想。以前反賭的同事會(huì)去賭博平臺(tái)收集一些惡意的二維碼,然后通過這些二維碼去做傳播、染色擴(kuò)散,然后挖掘到更多的人和二維碼,后來我們自研了一套Personalized  PageRank算法,對黑灰種子用戶進(jìn)行擴(kuò)散,效果也非常好,大家可以在網(wǎng)上搜一搜這個(gè)算法。


          3. 基于時(shí)序的異常挖掘



          基礎(chǔ)版:


          舉一個(gè)挖掘套現(xiàn)商戶/用戶的例子,套現(xiàn)商戶有一個(gè)明顯的特征:對于一個(gè)線下面對面商戶,交易對象的地域應(yīng)該是比較固定的(比如賣煎餅果子的小商家,付款方都是附近的居民和上班族),但如果一個(gè)線下面對面商家是涉及套現(xiàn)的,他的交易對象就有比較明顯的地域多樣性,這個(gè)多樣性可以用香農(nóng)系數(shù)來定義,一般套現(xiàn)商戶的香農(nóng)系數(shù)比正常的商戶大很多(一般是3個(gè)標(biāo)準(zhǔn)差)。找到高置信的套現(xiàn)商戶后,我們再分析跟這些商戶交易過的用戶過去120天的消費(fèi)支出,通過HP濾波器發(fā)現(xiàn)交易異常點(diǎn),如果這些交易異常點(diǎn)恰好是在異常商戶消費(fèi),通過一定的累計(jì)命中次數(shù)就可以說明他是一個(gè)高置信度的套現(xiàn)用戶,這種是比較傳統(tǒng)的時(shí)序挖掘。


          進(jìn)階版:


          但HP濾波器畢竟是一種非參數(shù)方法(非參數(shù)方法在具體應(yīng)用中不可避免地依賴于調(diào)節(jié)參數(shù)),如果HP濾波器過于粗糙,我們可以通過T-LSTM融合時(shí)序信息同邊信息做卷積,結(jié)合ego network的概念,自研了新的算法EgoTLSTM,這樣就解決了HP濾波器的問題。


          4. 團(tuán)伙快速挖掘


          團(tuán)伙挖掘也是風(fēng)控中比較重要的工作,我們的工作也分為基礎(chǔ)版和進(jìn)階版



          基礎(chǔ)版:


          基礎(chǔ)版比較簡單但比較耗時(shí),也就是通過網(wǎng)絡(luò)去關(guān)聯(lián)更多的用戶。舉個(gè)例子,我們可以針對一批高惡意樣本,去挖掘他們的資金關(guān)系鏈,通過各種關(guān)系(資金,證件,設(shè)備,環(huán)境等)去擴(kuò)散,再通過一些可信關(guān)系去做過濾,通過觀察用戶的資金流向,挖掘出相關(guān)的團(tuán)伙和并找出涉及資金較大的頭目。


          進(jìn)階版:


          進(jìn)階版是用了一個(gè)簡單實(shí)用的方法:connected component,目前用到的是無方向的弱的連通圖,這種算法可以快速把網(wǎng)絡(luò)劃分為一個(gè)個(gè)小的連通子圖,再計(jì)算子圖的密度或者聚集系數(shù)進(jìn)行后過濾,得到的連通子圖就會(huì)是一個(gè)關(guān)系緊密的小團(tuán)伙,最后通過我們自研的TPNet這種角色識(shí)別算法就可以得到團(tuán)伙里面的成員構(gòu)成。比如一個(gè)殺豬盤中就包括了資料組、話務(wù)組、技術(shù)組和洗錢組,可以看到團(tuán)伙不僅關(guān)系緊密且分工是比較明確的。


          順便補(bǔ)充一點(diǎn),我們經(jīng)常接觸的Louvain算法,在大數(shù)據(jù)下很容易形成怪物社區(qū),在業(yè)務(wù)中較少用到。


          5. GNN在設(shè)備網(wǎng)絡(luò)的應(yīng)用



          用戶-設(shè)備網(wǎng)絡(luò)在我們支付各種風(fēng)控場景中的應(yīng)用效果也是非常好的,大家也可以去搜索騰訊、阿里相關(guān)的論文,無論在交易欺詐,惡意賬號(hào)識(shí)別,用戶-設(shè)備二分網(wǎng)絡(luò)都是非常有用的,原因是用戶的設(shè)備是比較私人且有成本的,而人與人的連接往往帶有大量的隨機(jī)性。但是構(gòu)建設(shè)備網(wǎng)絡(luò)也是要降噪的,不僅是對邊的降噪,也包括節(jié)點(diǎn)的降噪,包括剔除山寨機(jī)這類有噪音的節(jié)點(diǎn)。


          圖神經(jīng)網(wǎng)絡(luò)算法一般分為兩種,一種是random walk ,比如大名鼎鼎的node2vec,另一種是neighborhood aggregation 比如GAT,Graphsage,我們比較推薦使用鄰居匯聚這種算法,因?yàn)橛斜O(jiān)督的學(xué)習(xí)我們比較好把握優(yōu)化的方向。舉個(gè)例子,下面這個(gè)圖有1到8個(gè)點(diǎn),5,6是標(biāo)注的異常的點(diǎn)(因?yàn)閳D計(jì)算都是半監(jiān)督學(xué)習(xí),所以我們也需要做一定的標(biāo)注),然后1,2這兩個(gè)點(diǎn)跟他們是多跳關(guān)系,可以去掉,這就是做了一步降噪。我們跑圖算法,最終還是要把一個(gè)異構(gòu)圖變成一個(gè)同構(gòu)圖的,如上圖,這個(gè)例子雖然只減少了2個(gè)節(jié)點(diǎn),但生成同構(gòu)圖的邊可能會(huì)少一半。通過實(shí)驗(yàn)對比,如果只用GNN來跑有監(jiān)督學(xué)習(xí)的話,AUC是0.92,比XGBoost跑畫像特征得到的0.93稍差,但如果把GNN學(xué)習(xí)到的個(gè)體Embedding拼接到原有的畫像特征,再跑XGBoost,AUC會(huì)有大幅度提升至0.97,這也說明了網(wǎng)絡(luò)結(jié)構(gòu)特征能給原有的個(gè)體畫像特征帶來明顯的增益。


          6. 團(tuán)隊(duì)在圖算法的探索和創(chuàng)新



          再講講我們的團(tuán)隊(duì),他們都是一些很聰明的,來自于南洋理工、香港理工和北大清華的博士,他們也有很多新的想法,比如說motif是一個(gè)沒有方向的東西,但是我們同事就把他變成了一個(gè)有方向的,還附帶了時(shí)序,比如說左圖的第3個(gè)motif是一個(gè)套現(xiàn)特征。另外一個(gè)創(chuàng)新是我們同事針對支付網(wǎng)絡(luò)優(yōu)化GNN,引入了Self-Training 和Joint-Learning兩個(gè)半監(jiān)督圖算法,綜合得到一個(gè)效果更好的圖算法(如右圖所示)。


          04 科技向善成果


          最后展示一下我們科技向善的成果。上市公司對股東的承諾都是保證收入、利潤的增長。但今年不太一樣,公司投入了非常大的資源,甚至專門成立一個(gè)科技向善的部門,希望通過互聯(lián)網(wǎng)技術(shù),讓這個(gè)世界效率更高,社會(huì)變的更公平。所以我們做了很多事情,協(xié)助國家開展反詐反賭反洗錢等工作,去幫助很多弱勢群體,我們也收到了大量感謝信和感謝錦旗。我們身處其中,感受到非常強(qiáng)的使命感和意義,希望以我們的技術(shù)所長為弱勢群體多做一些事情。


          05 問答環(huán)節(jié)


          Q:老師用的是什么圖數(shù)據(jù)庫?


          A:用過兩種圖數(shù)據(jù)庫,一種是底層基于S2Graph開發(fā)的,我們內(nèi)部叫Easygraph, 經(jīng)過3年打磨,已經(jīng)優(yōu)化的非常好,界面也很友好,但目前僅限于內(nèi)部使用,如果是外部的話可以考慮TigerGrpah,還有一個(gè)叫Nebula Graph,體驗(yàn)也不錯(cuò),也是開源的,推薦去試試。


          Q:圖是同質(zhì)還是異質(zhì)的?


          A:在微信支付來說,很多有用的圖都是異構(gòu)的,比如人和物,比如說用戶和商戶是一個(gè)異構(gòu)關(guān)系,用戶和設(shè)備在風(fēng)控好用的網(wǎng)絡(luò),這也是異構(gòu)的,但是在做算法的時(shí)候,會(huì)先把異構(gòu)圖變成同構(gòu)圖。


          Q:為什么異構(gòu)圖要轉(zhuǎn)成同構(gòu)圖?


          A:因?yàn)楫悩?gòu)圖算法不好跑,甚至很多算法本身雖然可以接受異構(gòu)圖數(shù)據(jù)的輸入,但是內(nèi)部他也需要轉(zhuǎn)化成同構(gòu)圖才能執(zhí)行,比如說GNN,在跑GNN的時(shí)候需要把用戶和設(shè)備轉(zhuǎn)成用戶和用戶之間的連接,因?yàn)樵O(shè)備只是起到一個(gè)媒介的作用,關(guān)鍵是我們看用戶和用戶之間的關(guān)聯(lián)。圖的問題都是半監(jiān)督的問題,相對于網(wǎng)絡(luò)來說,我們只有很少量的樣本,需要從這少量的標(biāo)注樣本中在網(wǎng)絡(luò)中找到更多相似的樣本。剛剛有朋友也問到了怎么做樣本增強(qiáng),我們其實(shí)也可以通過這種方法,去半監(jiān)督學(xué)習(xí),找到更多相似樣本(有關(guān)系且預(yù)測概率相近),就能做到樣本增強(qiáng)了。


          Q:反洗錢方面應(yīng)用


          A:反洗錢方面有剛剛提到的資金盤,資金盤其實(shí)涉及到傳銷反洗錢,涉及到使用USDT,現(xiàn)在很多洗錢都是通過USDT去走,還會(huì)涉及到二維碼、銀行卡,我們這里的話會(huì)通過很多關(guān)系的數(shù)據(jù),先建立一個(gè)純度高的網(wǎng)絡(luò),然后用 WCC,就是不考慮方向的connected component, 得到一個(gè)個(gè)小團(tuán)伙之后,再用角色識(shí)別算法區(qū)分它們的角色。比如說在一些虛擬幣、租碼跑分平臺(tái),是屬于國家管控洗錢領(lǐng)域的,這些平臺(tái)我們是有進(jìn)行反洗錢打擊的,把里面的號(hào)該封封了,該處置的號(hào)處置了,該上策略上策略,這就是反洗錢的其中一個(gè)應(yīng)用。


          Q:GNN的降噪


          A:圖(參GNN在設(shè)備網(wǎng)絡(luò)的應(yīng)用ppt圖)本來這個(gè)網(wǎng)絡(luò)是有1到8的節(jié)點(diǎn),但是不需要那么多,因?yàn)橛幸恍c(diǎn)沒有跟我們標(biāo)注的樣本節(jié)點(diǎn)產(chǎn)生直接的聯(lián)系的話,是可以直接把它剔除的,這樣的話整個(gè)網(wǎng)絡(luò)純度會(huì)高一些,有可能會(huì)犧牲一些召回率,但這個(gè)問題不大,因?yàn)槲覀冏隽艘惠喓笥锌赡軙?huì)得到更多的樣本,得到更多的樣本后再持續(xù)標(biāo)注和分析可以得到更多新的樣本。


          編輯:王菁

          校對:林亦霖

          瀏覽 55
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  影音先锋av资源在线 | 亚洲综合免费观看高清完整版在线 | 中日韩A片 | 日本特黄在线 | 嫩逼视频|