<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ATEC線上賽網(wǎng)絡欺詐舉報定性Top1方案總結

          共 1343字,需瀏覽 3分鐘

           ·

          2021-11-27 08:25

          老肥前一陣子參加了ATEC科技精英賽的線上賽,賽題是網(wǎng)絡欺詐舉報定性,幸運地和大佬隊友們以一個極簡的stacking方案拿下了科技新星榜的冠軍,下面就和大家一起回顧一下本次比賽。

          賽題背景

          隨著人工智能技術的廣泛應用,其安全和可靠性也成為了業(yè)界關注的焦點。可信人工智能技術研究迅速發(fā)展。相較于傳統(tǒng)的人工智能技術,可信人工智能更加關注如何減少AI對數(shù)據(jù)的依賴、在借助人工智能技術實現(xiàn)快速發(fā)展的同時實現(xiàn)隱私保護, 推動AI可解釋性、魯棒性的發(fā)展,思考AI公平性的應用和規(guī)范。

          本賽道將選取工業(yè)應用中常見的、由于“數(shù)據(jù)源差異”、“數(shù)據(jù)維度特征缺失”而導致的、模型應用困難的問題, 考察AI模型如何通過多源數(shù)據(jù)的有效應用以及半監(jiān)督學習技術,實現(xiàn)有限數(shù)據(jù)下的模型決策,從而思考如何減少AI對數(shù)據(jù)依賴的問題。賽題從當前社會中高發(fā)的電信網(wǎng)絡欺詐識別場景入手,提供模擬的“用戶”投訴欺詐信息,要求選手識別投訴中的欺詐風險。

          賽題數(shù)據(jù)與任務

          數(shù)據(jù)為模擬生成的用戶支付寶欺詐投訴舉報數(shù)據(jù),標簽1代表欺詐案件,標簽0代表非欺詐案件,標簽-1代表未知(測試數(shù)據(jù)不含-1標簽)。本賽題的任務便是將舉報數(shù)據(jù)進行二分類,評價指標為不同精確率閾值下的召回率加權

          數(shù)據(jù)包含481個特征,其中480個為結構化特征,1個為非結構化的特征。結構化特征包含:欺詐投訴舉報案件中主被動雙方的相關風控特征,非結構化特征為舉報描述信息。而所有的特征字段都是匿名的,我們很難對其做進一步的特征工程。但是妙就妙在該非結構化文本特征為非匿名,僅對關鍵詞做了替換,如微信、支付寶等,因此我們考慮使用中文預訓練模型。

          解決方案

          我們采取基于傳統(tǒng)機器學習和深度學習模型相結合的方案, 具體使用的模型分別為LightGBM與Bert。

          特征構造方面,我們基于對數(shù)據(jù)的觀察發(fā)現(xiàn)存在的異常值情況為較多字段存在特殊值,如-1, -1000, -1111等, 我們統(tǒng)一將這些特殊值替換為空值,并且對于每條投訴數(shù)據(jù)計算空值總和(null_sum)。

          對于文本特征,為了充分使用語料數(shù)據(jù),我們使用詞向量模型Word2Vec在所有訓練數(shù)據(jù)(包括無標簽數(shù)據(jù))上進行表征的訓練,同時采用了兩種不同的分詞方法,包括pkuseg和jieba,各得到一份128維的embedding向量。同樣為了充分使用語料數(shù)據(jù),我們在Bert-base模型的基礎上使用全部訓練數(shù)據(jù)做MLM任務,得到基于本賽題下的預訓練模型,再對下游文本二分類任務(所有有標簽的訓練數(shù)據(jù))進行學習,最終得到每段文本的OOF預測值。

          接著我們將Bert輸出的預測概率做為特征,與上述所有提取的特征以及原始480維匿名特征送入LightGBM模型進行十折交叉驗證訓練。

          不難看出,我們本次的方案確實非常簡單,沒有什么花里胡哨的操作,但卻非常有效。本次線上賽的代碼開發(fā)和docker提交還是相對比較繁瑣的,我們在比賽結束前1個多小時才將該方案成功提交,可謂是既驚險又刺激。


          ——END——

          瀏覽 47
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人人妻人人操人人射 | 久久Av东京热 | 国产欧美日韩视频在线 | 美女啪啪| 无码不卡在线播放 |