NLP一鍵中文數(shù)據(jù)增強工具

向AI轉(zhuǎn)型的程序員都關(guān)注了這個號??????
機器學(xué)習(xí)AI算法工程 公眾號:datayx
一鍵中文數(shù)據(jù)增強工具,支持:
1.隨機實體替換
2.近義詞
3.近義近音字替換
4.隨機字刪除(內(nèi)部細(xì)節(jié):數(shù)字時間日期片段,內(nèi)容不會刪)
5.NER類
BIO數(shù)據(jù)增強6.隨機置換鄰近的字:研表究明,漢字序順并不定一影響文字的閱讀理解<<是亂序的
7.中文等價字替換(1 一 壹 ①,2 二 貳 ②)
8.翻譯互轉(zhuǎn)實現(xiàn)的增強
9.使用
simbert做生成式相似句生成
經(jīng)過細(xì)節(jié)特殊處理,比如不改變年月日數(shù)字,盡量保證不改變原文語義。即使改變也能被猜出來、能被猜出來、能被踩出來、能被菜粗來、被菜粗、能菜粗來
項目獲取方式:
關(guān)注微信公眾號 datayx 然后回復(fù) 增強 即可獲取。
AI項目體驗地址 https://loveai.tech
計劃中的未來內(nèi)容
增加多線程操作,一鍵操作
使用 WordNet數(shù)據(jù)庫 來做同義詞替換
隨機噪聲注入?隨機插入一些字符,太簡單實現(xiàn)了。
利用pingyin?https://github.com/mozillazg/python-pinyin
基于Word2Vec、BERT等詞向量的詞語近距離的替換、MASK猜測置換 ??但是無法控制它生成,以及缺點MASK位置。
引入TF-IDF、TextRank、關(guān)鍵詞字典等,可以選擇:替換/不替換關(guān)鍵詞 ??
意義
在不改變原文語義的情況下,生成指定數(shù)量的訓(xùn)練語料文本
對NLP模型的泛化性能、對抗攻擊、干擾波動,有很好的提升作用
參考比賽(本人用此策略+base bert拿到:50+-/1000):https://www.biendata.com/competition/2019diac/
API
1.隨機(等價)實體替換
參數(shù):
base_file :缺省時使用內(nèi)置(公司)實體。對公司實體進行替換
是文本文件路徑,內(nèi)容形如:
實體1
實體2
...
實體ncreate_num=3 :返回最多3個增強文本
change_rate=0.3 :文本改變率
seed :隨機種子

2.隨機同義詞替換
參數(shù):
base_file :缺省時使用內(nèi)置同義詞表,你可以設(shè)定/自己指定更加豐富的同義詞表:
是文本文件路徑,內(nèi)容形如(空格隔開):
Aa01A0 人類 生人 全人類
id2 同義詞b1 同義詞b2 ... 同義詞bk
...
idn 同義詞n1 同義詞n2\create_num=3 :返回最多3個增強文本
change_rate=0.3 :文本改變率
seed :隨機種子

3.隨機近義字替換
參數(shù):
base_file :缺省時使用內(nèi)置【同義同音字表】,你可以設(shè)定/自己指定更加豐富的同義同音字表:
是文本文件路徑,內(nèi)容形如(\t隔開):
de 的 地 得 德 嘚 徳 锝 脦 悳 淂 鍀 惪 恴 棏
拼音2 字b1 字b2 ... 字bk
...
拼音n 字n1 字n2\create_num=3 :返回最多3個增強文本
change_rate=0.3 :文本改變率
seed :隨機種子

4.隨機字刪除
參數(shù):
create_num=3 :返回最多3個增強文本
change_rate=0.3 :文本改變率
seed :隨機種子

5.NER命名實體 數(shù)據(jù)增強
輸入標(biāo)注好的NER數(shù)據(jù)目錄,和需要增強的標(biāo)注文件路徑,和增強的數(shù)量,即可一鍵增強
Ner類參數(shù):
ner_dir_name='ner_data' : 在ner數(shù)據(jù)放在ner_data目錄下(里面很多.txt)
ner_dir_name提供的目錄下是各種標(biāo)注數(shù)據(jù)文件,文件內(nèi)容以標(biāo)準(zhǔn)的NER 的BIO格式分開:

ignore_tag_list=['O'] : 數(shù)據(jù)里面O標(biāo)簽的不需要管
data_augument_tag_list=['P', 'LOC'] : 只對P、LOC標(biāo)簽的實體做增強
augument_size=3 : 每條標(biāo)注數(shù)據(jù),最多新增強數(shù)量
seed=0 : 隨機種子/ 可缺省
調(diào)用函數(shù)augment()參數(shù)
file_name: 1條標(biāo)注訓(xùn)練文件的路徑,如0.txt
ner.augment(file_name='0.txt')
例子:

6.隨機置換鄰近的字
char_gram=3:某個字只和鄰近的3個字交換
內(nèi)部細(xì)節(jié):遇到數(shù)字,符號等非中文,不會交換

7.等價字替換
參數(shù):
base_file :缺省時使用內(nèi)置【等價數(shù)字字表】,你可以設(shè)定/自己指定更加豐富的等價字表(或者使用函數(shù):add_equivalent_list):
是文本文件路徑,內(nèi)容形如((\t)隔開):
0 零 〇
1 一 壹 ①
...
9 九 玖 ⑨create_num=3 :返回最多3個增強文本
change_rate=0.3 :文本改變率
seed :隨機種子

8.翻譯互轉(zhuǎn)實現(xiàn)的增強
1.百度中英翻譯互轉(zhuǎn)實現(xiàn)的增強 note:
申請你的 appid、secretKey: http://api.fanyi.baidu.com/api/trans

9.simbert
來源:https://github.com/ZhuiyiTechnology/pretrained-models
參考:https://github.com/ZhuiyiTechnology/simbert
下載其中任意模型,解壓到任意位置賦值給model_path變量:

參數(shù):
config:model_path(上述下載的模型位置),設(shè)備(cpu/cuda...)、最大長度、隨機種子
sent:需要增強的句子
create_num:構(gòu)造的句子數(shù)量

機器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)
搜索公眾號添加: datanlp
長按圖片,識別二維碼
閱讀過本文的人還看了以下文章:
TensorFlow 2.0深度學(xué)習(xí)案例實戰(zhàn)
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《基于深度學(xué)習(xí)的自然語言處理》中/英PDF
【全套視頻課】最全的目標(biāo)檢測算法系列講解,通俗易懂!
《美團機器學(xué)習(xí)實踐》_美團算法團隊.pdf
《深度學(xué)習(xí)入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學(xué)習(xí)視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實踐詳解》完整版PDF+附書代碼
《深度學(xué)習(xí)之pytorch》pdf+附書源碼
PyTorch深度學(xué)習(xí)快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學(xué)習(xí)實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學(xué)習(xí)方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼
FashionAI服裝屬性標(biāo)簽圖像識別Top1-5方案分享
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
同樣是機器學(xué)習(xí)算法工程師,你的面試為什么過不了?
前海征信大數(shù)據(jù)算法:風(fēng)險概率預(yù)測
【Keras】完整實現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學(xué)習(xí)圖像分類
VGG16遷移學(xué)習(xí),實現(xiàn)醫(yī)學(xué)圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學(xué)習(xí)與特征工程
不斷更新資源
深度學(xué)習(xí)、機器學(xué)習(xí)、數(shù)據(jù)分析、python
搜索公眾號添加: datayx
