<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NLP一鍵中文數(shù)據(jù)增強工具

          共 3597字,需瀏覽 8分鐘

           ·

          2021-08-25 04:07


          向AI轉(zhuǎn)型的程序員都關(guān)注了這個號??????

          機器學(xué)習(xí)AI算法工程   公眾號:datayx



          一鍵中文數(shù)據(jù)增強工具,支持:

          • 1.隨機實體替換

          • 2.近義詞

          • 3.近義近音字替換

          • 4.隨機字刪除(內(nèi)部細(xì)節(jié):數(shù)字時間日期片段,內(nèi)容不會刪)

          • 5.NER類 BIO 數(shù)據(jù)增強

          • 6.隨機置換鄰近的字:研表究明,漢字序順并不定一影響文字的閱讀理解<<是亂序的

          • 7.中文等價字替換(1 一 壹 ①,2 二 貳 ②)

          • 8.翻譯互轉(zhuǎn)實現(xiàn)的增強

          • 9.使用simbert做生成式相似句生成

          經(jīng)過細(xì)節(jié)特殊處理,比如不改變年月日數(shù)字,盡量保證不改變原文語義。即使改變也能被猜出來、能被猜出來、能被踩出來、能被菜粗來、被菜粗、能菜粗來


            項目獲取方式:

            關(guān)注微信公眾號 datayx  然后回復(fù) 增強 即可獲取。

            AI項目體驗地址 https://loveai.tech


          計劃中的未來內(nèi)容

          • 增加多線程操作,一鍵操作

          • 使用 WordNet數(shù)據(jù)庫 來做同義詞替換

          • 隨機噪聲注入?隨機插入一些字符,太簡單實現(xiàn)了。

          • 利用pingyin?https://github.com/mozillazg/python-pinyin

          • 基于Word2Vec、BERT等詞向量的詞語近距離的替換、MASK猜測置換 ??但是無法控制它生成,以及缺點MASK位置。

          • 引入TF-IDF、TextRank、關(guān)鍵詞字典等,可以選擇:替換/不替換關(guān)鍵詞 ??

          意義

          • 在不改變原文語義的情況下,生成指定數(shù)量的訓(xùn)練語料文本

          • 對NLP模型的泛化性能、對抗攻擊、干擾波動,有很好的提升作用

          • 參考比賽(本人用此策略+base bert拿到:50+-/1000):https://www.biendata.com/competition/2019diac/



          API

          1.隨機(等價)實體替換

          參數(shù):

          • base_file :缺省時使用內(nèi)置(公司)實體。對公司實體進行替換

            是文本文件路徑,內(nèi)容形如:
            實體1
            實體2
            ...
            實體n

          • create_num=3 :返回最多3個增強文本

          • change_rate=0.3 :文本改變率

          • seed :隨機種子




          2.隨機同義詞替換

          參數(shù):

          • base_file :缺省時使用內(nèi)置同義詞表,你可以設(shè)定/自己指定更加豐富的同義詞表:

            是文本文件路徑,內(nèi)容形如(空格隔開):
            Aa01A0 人類 生人 全人類
            id2 同義詞b1 同義詞b2 ... 同義詞bk
            ...
            idn 同義詞n1 同義詞n2\

          • create_num=3 :返回最多3個增強文本

          • change_rate=0.3 :文本改變率

          • seed :隨機種子



          3.隨機近義字替換

          參數(shù):

          • base_file :缺省時使用內(nèi)置【同義同音字表】,你可以設(shè)定/自己指定更加豐富的同義同音字表:

            是文本文件路徑,內(nèi)容形如(\t隔開):
            de 的 地 得 德 嘚 徳 锝 脦 悳 淂 鍀 惪 恴 棏
            拼音2 字b1 字b2 ... 字bk
            ...
            拼音n 字n1 字n2\

          • create_num=3 :返回最多3個增強文本

          • change_rate=0.3 :文本改變率

          • seed :隨機種子




          4.隨機字刪除

          參數(shù):

          • create_num=3 :返回最多3個增強文本

          • change_rate=0.3 :文本改變率

          • seed :隨機種子




          5.NER命名實體 數(shù)據(jù)增強

          輸入標(biāo)注好的NER數(shù)據(jù)目錄,和需要增強的標(biāo)注文件路徑,和增強的數(shù)量,即可一鍵增強

          Ner類參數(shù):

          • ner_dir_name='ner_data' : 在ner數(shù)據(jù)放在ner_data目錄下(里面很多.txt)

          • ner_dir_name提供的目錄下是各種標(biāo)注數(shù)據(jù)文件,文件內(nèi)容以標(biāo)準(zhǔn)的NER 的BIO格式分開:


          • ignore_tag_list=['O'] : 數(shù)據(jù)里面O標(biāo)簽的不需要管

          • data_augument_tag_list=['P', 'LOC'] : 只對P、LOC標(biāo)簽的實體做增強

          • augument_size=3 : 每條標(biāo)注數(shù)據(jù),最多新增強數(shù)量

          • seed=0 : 隨機種子/ 可缺省

          調(diào)用函數(shù)augment()參數(shù)

          • file_name: 1條標(biāo)注訓(xùn)練文件的路徑,如0.txt

          • ner.augment(file_name='0.txt')

          例子:



          6.隨機置換鄰近的字

          • char_gram=3:某個字只和鄰近的3個字交換

          • 內(nèi)部細(xì)節(jié):遇到數(shù)字,符號等非中文,不會交換





          7.等價字替換

          參數(shù):

          • base_file :缺省時使用內(nèi)置【等價數(shù)字字表】,你可以設(shè)定/自己指定更加豐富的等價字表(或者使用函數(shù):add_equivalent_list):

            是文本文件路徑,內(nèi)容形如((\t)隔開):
            0 零 〇
            1 一 壹 ①
            ...
            9 九 玖 ⑨

          • create_num=3 :返回最多3個增強文本

          • change_rate=0.3 :文本改變率

          • seed :隨機種子




          8.翻譯互轉(zhuǎn)實現(xiàn)的增強

          1.百度中英翻譯互轉(zhuǎn)實現(xiàn)的增強 note:

          申請你的 appid、secretKey: http://api.fanyi.baidu.com/api/trans



          9.simbert

          來源:https://github.com/ZhuiyiTechnology/pretrained-models

          參考:https://github.com/ZhuiyiTechnology/simbert

          下載其中任意模型,解壓到任意位置賦值給model_path變量:


          參數(shù):

          • config:model_path(上述下載的模型位置),設(shè)備(cpu/cuda...)、最大長度、隨機種子

          • sent:需要增強的句子

          • create_num:構(gòu)造的句子數(shù)量




          機器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)

           搜索公眾號添加: datanlp

          長按圖片,識別二維碼




          閱讀過本文的人還看了以下文章:


          TensorFlow 2.0深度學(xué)習(xí)案例實戰(zhàn)


          基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測


          《基于深度學(xué)習(xí)的自然語言處理》中/英PDF


          Deep Learning 中文版初版-周志華團隊


          【全套視頻課】最全的目標(biāo)檢測算法系列講解,通俗易懂!


          《美團機器學(xué)習(xí)實踐》_美團算法團隊.pdf


          《深度學(xué)習(xí)入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學(xué)習(xí)視頻,從入門到實戰(zhàn)項目


          2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


          《21個項目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實踐詳解》完整版PDF+附書代碼


          《深度學(xué)習(xí)之pytorch》pdf+附書源碼


          PyTorch深度學(xué)習(xí)快速實戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評分8.1,《機器學(xué)習(xí)實戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)


          李沐大神開源《動手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計學(xué)習(xí)方法》最新資源全套!


          《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


          將機器學(xué)習(xí)模型部署為REST API


          FashionAI服裝屬性標(biāo)簽圖像識別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別


          yolo3 檢測出圖像中的不規(guī)則漢字


          同樣是機器學(xué)習(xí)算法工程師,你的面試為什么過不了?


          前海征信大數(shù)據(jù)算法:風(fēng)險概率預(yù)測


          【Keras】完整實現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學(xué)習(xí)圖像分類


          VGG16遷移學(xué)習(xí),實現(xiàn)醫(yī)學(xué)圖像識別分類工程項目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學(xué)習(xí)


          如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過


          全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識別手寫中文網(wǎng)站


          中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學(xué)習(xí)與特征工程



          不斷更新資源

          深度學(xué)習(xí)、機器學(xué)習(xí)、數(shù)據(jù)分析、python

           搜索公眾號添加: datayx  

          瀏覽 69
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色综合网,天天网 | 欧美手机在线观看 | 日韩第1页 | 日韩在线观看视频一区二区三区 | 五月婷婷天中文字幕版 |