<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【NLP】最全中文自然語言處理數(shù)據(jù)集、平臺和工具整理

          共 4997字,需瀏覽 10分鐘

           ·

          2022-11-22 11:57


           


              資源整理了文本分類、實體識別&詞性標(biāo)注、搜索匹配、推薦系統(tǒng)、指代消歧、百科數(shù)據(jù)、預(yù)訓(xùn)練詞向量or模型、中文完形填空等大量數(shù)據(jù)集,中文數(shù)據(jù)集平臺和NLP工具等。

              本文內(nèi)容整理自:https://github.com/InsaneLife/ChineseNLPCorpus


          文本分類

              新聞分類

              今日頭條中文新聞(短文本)分類數(shù)據(jù)集 :https://github.com/fateleak/toutiao-text-classfication-dataset

              數(shù)據(jù)規(guī)模:共38萬條,分布于15個分類中。

              采集時間:2018年05月。

              以0.7 0.15 0.15做分割 。


              清華新聞分類語料

              根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成。

              數(shù)據(jù)量:74萬篇新聞文檔(2.19 GB)

              小數(shù)據(jù)實驗可以篩選類別:體育, 財經(jīng), 房產(chǎn), 家居, 教育, 科技, 時尚, 時政, 游戲, 娛樂

              http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

              rnn和cnn實驗:https://github.com/gaussic/text-classification-cnn-rnn


              中科大新聞分類語料庫:http://www.nlpir.org/?action-viewnews-itemid-145


              情感/觀點/評論 傾向性分析


          實體識別&詞性標(biāo)注

              微博實體識別

              https://github.com/hltcoe/golden-horse


              boson數(shù)據(jù)

              包含6種實體類型。

              https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson


              人民日報數(shù)據(jù)集

              人名、地名、組織名三種實體類型

              1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

              2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3


              MSRA微軟亞洲研究院數(shù)據(jù)集

              5 萬多條中文命名實體識別標(biāo)注數(shù)據(jù)(包括地點、機構(gòu)、人物)

              https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA


              SIGHAN Bakeoff 2005:一共有四個數(shù)據(jù)集,包含繁體中文和簡體中文,下面是簡體中文分詞數(shù)據(jù)。

              

              MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

              PKU :http://sighan.cs.uchicago.edu/bakeoff2005/


          搜索匹配

              OPPO手機搜索排序

              OPPO手機搜索排序query-title語義匹配數(shù)據(jù)集。

              鏈接:https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n

              

              網(wǎng)頁搜索結(jié)果評價(SogouE)

              用戶查詢及相關(guān)URL列表

              https://www.sogou.com/labs/resource/e.php

              

          推薦系統(tǒng)

          百科數(shù)據(jù)

              維基百科

              維基百科會定時將語料庫打包發(fā)布:

              數(shù)據(jù)處理博客

              https://dumps.wikimedia.org/zhwiki/


              百度百科

              只能自己爬,爬取得鏈接:https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。

              

          指代消歧

              CoNLL 2012 :http://conll.cemantix.org/2012/data.html

              

          預(yù)訓(xùn)練:(詞向量or模型)

              BERT

              開源代碼:https://github.com/google-research/bert

              模型下載:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters


              ELMO

              開源代碼:https://github.com/allenai/bilm-tf

              預(yù)訓(xùn)練的模型:https://allennlp.org/elmo


              騰訊詞向量

              騰訊AI實驗室公開的中文詞向量數(shù)據(jù)集包含800多萬中文詞匯,其中每個詞對應(yīng)一個200維的向量。

              下載地址:https://ai.tencent.com/ailab/nlp/embedding.html


              上百種預(yù)訓(xùn)練中文詞向量

              https://github.com/Embedding/Chinese-Word-Vectors

              

          中文完形填空數(shù)據(jù)集

              https://github.com/ymcui/Chinese-RC-Dataset

              

          中華古詩詞數(shù)據(jù)庫

              最全中華古詩詞數(shù)據(jù)集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。

              https://github.com/chinese-poetry/chinese-poetry

              

          保險行業(yè)語料庫

              https://github.com/Samurais/insuranceqa-corpus-zh

              

          漢語拆字字典

              英文可以做char embedding,中文不妨可以試試拆字

              https://github.com/kfcd/chaizi

              

          中文數(shù)據(jù)集平臺

              搜狗實驗室

              搜狗實驗室提供了一些高質(zhì)量的中文文本數(shù)據(jù)集,時間比較早,多為2012年以前的數(shù)據(jù)。

              https://www.sogou.com/labs/resource/list_pingce.php

              

              中科大自然語言處理與信息檢索共享平臺

              http://www.nlpir.org/?action-category-catid-28

              

              中文語料小數(shù)據(jù)

              包含了中文命名實體識別、中文關(guān)系識別、中文閱讀理解等一些小量數(shù)據(jù)。

              https://github.com/crownpku/Small-Chinese-Corpus

              維基百科數(shù)據(jù)集

              https://dumps.wikimedia.org/


          NLP工具

              THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標(biāo)注功能。

              

              HanLP:https://github.com/hankcs/HanLP

              

              哈工大LTP: https://github.com/HIT-SCIR/ltp

              

              NLPIR: https://github.com/NLPIR-team/NLPIR

              

              jieba分詞: https://github.com/yanyiwu/cppjieba









































          往期精彩回顧





          瀏覽 80
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人做爰A片免费播放乱码 | 日本成人三级网址 | 俺也来俺也去俺也射 | 影音先锋日韩资源站 | 55夜色66夜色 |