NLP菜鳥逆襲
NLP菜鳥逆襲記:
地址:
Github地址:https://github.com/km1994/AwesomeNLP
dGitee 地址:https://gitee.com/km601/AwesomeNLP_gitee
x
介紹:【NLP菜鳥逆襲】分享 自然語言處理(文本分類、信息抽取、知識圖譜、機器翻譯、問答系統(tǒng)、文本生成、Text-to-SQL、文本糾錯、文本挖掘、知識蒸餾、模型加速、OCR、TTS、Prompt、embedding等)等 實戰(zhàn)與經(jīng)驗。
梳理 NLP基礎(chǔ)任務(wù)(文本分類、命名實體識別、關(guān)系抽取、事件抽取、文本摘要、文本生成、Prompt)和 LLMs 大模型等開源項目,爭取做成一個全網(wǎng)最全NLP小白入門教程!
一、文本分類
1.1 多類別文本分類
-
NLP菜鳥逆襲記——【多類別文本分類】筆記 -
多類別文本分類 實戰(zhàn)篇 -
非預(yù)訓(xùn)練類模型 -
FastText -
TextCNN -
TextRNN -
TextRCNN -
Transformer -
預(yù)訓(xùn)練類模型 -
Bert -
Albert -
Roberta -
Distilbert -
Electra
-
NLP菜鳥逆襲記——【多類別文本分類】實戰(zhàn)
1.2 多標(biāo)簽文本分類
-
NLP菜鳥逆襲記——【多標(biāo)簽文本分類】筆記 -
多標(biāo)簽文本分類 實戰(zhàn)篇 -
NLP菜鳥逆襲記——【基于 Bert 中文多標(biāo)簽分類】實戰(zhàn) -
NLP菜鳥逆襲記——【劇本角色情感 中文多標(biāo)簽分類】實戰(zhàn)
1.3 方面級情感識別
-
NLP菜鳥逆襲記——【基于方面的情感分析(ABSA)】理論 -
基于方面的情感分析(ABSA) 實戰(zhàn)篇 -
NLP菜鳥逆襲記——【基于 Bert 中文方面級情感識別】實戰(zhàn)
1.4 文本匹配
-
NLP菜鳥逆襲記——【文本匹配】理論 -
文本匹配 實戰(zhàn)篇 -
NLP菜鳥逆襲記——【文本匹配】實戰(zhàn)
二、信息抽取
2.1 命名實體識別
-
命名實體識別 理論篇 -
NLP菜鳥逆襲記——【HMM->MEMM->CRF】實戰(zhàn) -
DNN-CRF 理論篇 -
命名實體識別 實戰(zhàn)篇 -
NLP菜鳥逆襲記——【Bert-CRF】實戰(zhàn) -
NLP菜鳥逆襲記——【Bert-Softmax】實戰(zhàn) -
NLP菜鳥逆襲記——【Bert-Span】實戰(zhàn) -
NLP菜鳥逆襲記——【MRC for Flat Nested NER:一種基于機器閱讀理解的命名實體識別】實戰(zhàn) -
NLP菜鳥逆襲記——【Biaffine NER:一種基于雙仿射注意力機制的命名實體識別】實戰(zhàn) -
NLP菜鳥逆襲記——【Multi Head Selection Ner:一種基于多頭選擇的命名實體識別】實戰(zhàn) -
NLP菜鳥逆襲記——【one vs rest NER:一種基于one vs rest的命名實體識別】實戰(zhàn) -
NLP菜鳥逆襲記——【GlobalPointer:一種基于span分類的解碼方法】實戰(zhàn) -
NLP菜鳥逆襲記——【W(wǎng)2NER:一種統(tǒng)一的命名實體識別詞與詞的的命名實體識別】實戰(zhàn)
2.2 關(guān)系抽取
-
NLP菜鳥逆襲記——【關(guān)系抽取(分類)】理論 -
關(guān)系抽取 實戰(zhàn)篇 -
NLP菜鳥逆襲記——【BERT-RE:一種基于 Bert 的 Pipeline 實體關(guān)系抽取】實踐 -
NLP菜鳥逆襲記——【Casrel Triple Extraction:一種基于 CasRel 的 三元組抽取】實踐 -
NLP菜鳥逆襲記——【GPLinker:一種基于 GPLinker的 三元組抽取】實踐
2.3 事件抽取
-
事件抽取 理論篇 -
事件抽取 實戰(zhàn)篇 -
NLP菜鳥逆襲記——【BERT Event Extraction:一種基于 Bert 的 Pipeline 事件抽取】實踐 -
NLP菜鳥逆襲記——【BERT MRC Event Extraction:一種基于 MRC 的 事件抽取】實踐
2.4 屬性抽取
-
NLP菜鳥逆襲記——【屬性抽取(Attribute Extraction)】理論 -
屬性抽取 實戰(zhàn)篇 -
NLP菜鳥逆襲記——【一種基于 albert 的中文屬性抽取 —— Albert for Attribute Extraction】實踐
2.5 關(guān)鍵詞抽取
-
【NLP菜鳥逆襲記—【關(guān)鍵詞提取】理論 -
關(guān)鍵詞抽取 實戰(zhàn)篇
2.6 新詞發(fā)現(xiàn)
-
NLP菜鳥逆襲記—【新詞發(fā)現(xiàn)】理論 -
新詞發(fā)現(xiàn) 實戰(zhàn)篇
三、知識圖譜
3.1 知識圖譜
-
【NLP菜鳥逆襲記—【知識圖譜】理論 -
知識圖譜 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【基于金融知識圖譜的知識計算引擎構(gòu)建】實戰(zhàn) -
NLP菜鳥逆襲記—【基于金融知識圖譜的問答系統(tǒng)】實戰(zhàn)
3.2 實體鏈指
-
【NLP菜鳥逆襲記—【實體鏈指】理論 -
實體鏈指 實戰(zhàn)篇
3.3 知識圖譜補全
-
【NLP菜鳥逆襲記—【知識圖譜補全】理論 -
知識圖譜補全 實戰(zhàn)篇
3.4 neo4j
-
【NLP菜鳥逆襲記—【Neo4j】實戰(zhàn)
四、機器翻譯
-
NLP菜鳥逆襲記—【機器翻譯】理論 -
機器翻譯 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【seq2seq_english_to_chinese 一種結(jié)合 seq2seq 的 文本翻譯】理論
五、問答系統(tǒng)
-
NLP菜鳥逆襲記—【智能問答技術(shù)】理論
5.1 閱讀理解
-
NLP菜鳥逆襲記—【機器閱讀理解】理論 -
閱讀理解 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【基于QANet的中文閱讀理解】實戰(zhàn)
5.2 檢索式問答
-
NLP菜鳥逆襲記—【FAQ 檢索式問答系統(tǒng)】理論 -
檢索式問答 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【Faiss】實踐 -
NLP菜鳥逆襲記—【milvus】理論
5.3 基于知識圖譜問答
-
NLP菜鳥逆襲記—【KBQA】理論 -
基于知識圖譜問答 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【基于金融知識圖譜的知識計算引擎構(gòu)建】實戰(zhàn) -
NLP菜鳥逆襲記—【基于金融知識圖譜的問答系統(tǒng)】實戰(zhàn)
5.4 基于知識圖譜問答
-
NLP菜鳥逆襲記—【對話系統(tǒng)】理論 -
對話系統(tǒng) 實戰(zhàn)篇
六、文本生成
-
NLP菜鳥逆襲記—【自然語言生成】理論 -
文本生成 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【Bert_Unilm】實踐 -
NLP菜鳥逆襲記—【T5_Pegasus】實踐
七、Text-to-SQL
-
NLP菜鳥逆襲記—【Text-to-SQL】理論 -
Text-to-SQL 實戰(zhàn)篇
八、文本糾錯
-
NLP菜鳥逆襲記—【文本糾錯】理論 -
文本糾錯 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【一種結(jié)合 Bert 的 中文拼寫檢查】實戰(zhàn) -
NLP菜鳥逆襲記—【CSC 一種結(jié)合 Soft-Masked Bert 的 中文拼寫檢查】實戰(zhàn)
九、文本挖掘
-
NLP菜鳥逆襲記—【文本挖掘】理論 -
文本挖掘 實戰(zhàn)篇
十、知識蒸餾
-
NLP菜鳥逆襲記—【Bert 壓縮】理論 -
NLP菜鳥逆襲記【FastBERT】理論 -
知識蒸餾 實戰(zhàn)篇 -
NLP菜鳥逆襲記【Distilling Task-Specific from BERT into SNN】實戰(zhàn) -
NLP菜鳥逆襲記【FastBERT】實戰(zhàn)
十一、模型加速
11.1 CTranslate2
-
NLP菜鳥逆襲記—【模型加速 —— CTranslate2】理論
11.2 optimum
-
NLP菜鳥逆襲記—【模型加速 —— Optimum】理論
十二、OCR
-
NLP菜鳥逆襲記—【OCR】理論
12.1 pytesseract
-
NLP菜鳥逆襲記—【OCR —— tesseract】理論
12.2 hn_ocr
-
NLP菜鳥逆襲記—【OCR —— hn_ocr】理論
12.3 PaddleOCR
-
NLP菜鳥逆襲記—【OCR —— PaddleOCR】理論
十三、TTS
-
NLP菜鳥逆襲記—【文本語音合成 TTS】理論
13.1 pyttsx3
-
NLP菜鳥逆襲記—【文本語音合成 —— pyttsx3】實戰(zhàn)
13.2 PaddleSpeech
-
PaddleSpeech 理論篇
13.3 tensorflow_tts
-
NLP菜鳥逆襲記—【文本語音合成 —— tensorflow_tts】實戰(zhàn)
13.4 KAN_TTS
-
NLP菜鳥逆襲記—【文本語音合成 —— KAN-TTS】實戰(zhàn)
十四、Prompt
-
NLP菜鳥逆襲記—【Prompt】實戰(zhàn) -
Prompt 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【PromptCLUE】實戰(zhàn)
十五、embedding
-
NLP菜鳥逆襲記—【Embeddings】理論 -
embedding 實戰(zhàn)篇 -
NLP菜鳥逆襲記—【sbert】實戰(zhàn) -
NLP菜鳥逆襲記—【text2vec】實戰(zhàn) -
NLP菜鳥逆襲記—【SGPT:基于GPT的生成式embedding】實戰(zhàn) -
NLP菜鳥逆襲記—【BGE —— 智源開源最強語義向量模型】實戰(zhàn) -
NLP菜鳥逆襲記—【M3E:一種大規(guī)模混合embedding】實戰(zhàn)
NLP 神器
-
chaizi:一種 漢語拆字詞典 神器 -
cn2an:一種中文數(shù)字與阿拉伯?dāng)?shù)字的相互轉(zhuǎn)換神器 -
cocoNLP:一種 人名、地址、郵箱、手機號、手機歸屬地 等信息的抽取,rake短語抽取算法 -
difflib.SequenceMatcher:一種 文本查重 神器 -
Entity_Emotion_Express:一種 詞匯情感值 神器 -
jieba_fast:一種 中文分詞 神器 -
JioNLP:一種 中文 NLP 預(yù)處理 神器 -
ngender:一種 根據(jù)名字判斷性別 神器 -
pdfplumber:一種 pdf 內(nèi)容解析神器 -
phone:一種 中國手機歸屬地查詢 神器 -
PrettyTable:一種 生成美觀的ASCII格式的表格 神器 -
Pypinyin:一種漢字轉(zhuǎn)拼音神器 -
Rank-BM25:一種 基于bm25算法 神器 -
schedule :一種 最全的Python定時任務(wù)神器 -
similarity:一種 相似度計算 神器 -
SnowNLP:一種 中文文本預(yù)處理 神器 -
Synonyms:一種中文近義詞 神器 -
textfilter:一種 中英文敏感詞過濾 神器 -
一種 中文縮寫庫 神器
LLMs 千面郎君:https://github.com/km1994/LLMs_interview_notes
介紹:該倉庫主要記錄 大模型(LLMs) 算法工程師相關(guān)的面試題
LLMs九層妖塔:https://github.com/km1994/LLMsNineStoryDemonTower
介紹:【LLMs九層妖塔】分享 LLMs在自然語言處理(ChatGLM、Chinese-LLaMA-Alpaca、小羊駝 Vicuna、LLaMA、GPT4ALL等)、信息檢索(langchain)、語言合成、語言識別、多模態(tài)等領(lǐng)域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 實戰(zhàn)與經(jīng)驗。
NLP 面無不過:https://github.com/km1994/NLP-Interview-Notes
介紹:該倉庫主要記錄 NLP 算法工程師相關(guān)的面試題
【關(guān)于 NLP】 那些你不知道的事:https://github.com/km1994/nlp_paper_study
介紹:該倉庫主要記錄 NLP 算法工程師相關(guān)的頂會論文研讀筆記
