??Wit.ai
文檔:?wit.ai/docs
Demo:?labs.wit.ai/demo/index.…
如果需要為開發(fā)人員提供與語音自動化相關的日常工作,那么它將是最佳選擇。Wit為家庭自動化、聯(lián)網汽車、機器人、智能手機、可穿戴設備等創(chuàng)建智能語音界面。而且還免費。
??Geneea
文檔:?api.geneea.com/
Demo:?demo.geneea.com/
Geneea對提供的原始文本,從給定URL提取的文本或直接從提供的文檔執(zhí)行分析(自然語言處理)。Geneea對語言、主題識別、情感檢測、實體提取、自動標記等主題進行分析,并對捷克文本的變音符號進行各種校正。
??Hugging Face Transformers
GitHub - huggingface/transformers: ?? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Transformers提供了數(shù)千個預訓練模型來執(zhí)行不同形式的任務,例如文本、視覺和音頻。這些模型可應用于文本(文本分類、信息提取、問答、摘要、翻譯、文本生成,支持超過 100 種語言)、圖像(圖像分類、對象檢測和分割)和音頻(語音識別和音頻分類 )。Transformer 模型還可以結合多種模式執(zhí)行任務,例如表格問答、OCR、從掃描文檔中提取信息、視頻分類和視覺問答。
??Gensim
https://github.com/RaRe-Technologies/gensim
gensim · PyPI
Gensim 是一個 Python 庫,用于主題建模、文檔索引和大型語料庫的相似性檢索。目標受眾是 NLP 和信息檢索 (IR) 社區(qū)。Gensim 具有流行算法的高效多核實現(xiàn),包括但不限于Latent Semantic Analysis (LSA/LSI/SVD)、Latent Dirichlet Allocation (LDA)、Random Projections (RP)、Hierarchical Dirichlet Process(HDP) 或 word2vec 深度學習等。
??Diffbot Analyze
文檔:?www.diffbot.com/dev/docs/
Demo:?www.diffbot.com/
該API執(zhí)行自動識別、分析和提取,可以輕松地從任何URL傳送每個數(shù)據(jù)(文本,照片,視頻)。它將人工智能、機器學習、計算機視覺和NLP相結合。此外,可以將其與自定義API同時使用,以便使用手動規(guī)則來獲取數(shù)據(jù)。
??Bitext
文檔:?docs.api.bitext.com/
Demo:?parser.bitext.com/
Bitext API是另一個深度語言分析工具,提供易于導出到各種數(shù)據(jù)管理工具的數(shù)據(jù)。該平臺產品可用于聊天機器人和智能助手、CS和Sentiment,以及一些其他核心NLP任務。這個API的重點是語義、語法、詞典和語料庫,可用于80多種語言。此外,該API是客戶反饋分析自動化方面的最佳API之一。該公司聲稱可以將洞察的準確度做到90%。
??AllenNLP
GitHub - allenai/allennlp-models: Officially supported AllenNLP models
AllenNLP是基于 PyTorch 構建的 NLP 研究庫,使用開源協(xié)議為Apache 2.0 ,它包含用于在各種語言任務上開發(fā)最先進的深度學習模型并提供了廣泛的現(xiàn)有模型實現(xiàn)集合,這些實現(xiàn)都是按照高標準設計,為進一步研究奠定了良好的基礎。AllenNLP 提供了一種高級配置語言來實現(xiàn) NLP 中的許多常見方法,例如transformer、多任務訓練、視覺+語言任務、公平性和可解釋性。這允許純粹通過配置對廣泛的任務進行實驗,因此使用者可以專注于解決研究中的重要問題。
??CoreNLP
CoreNLP: CoreNLP 是斯坦福提供的一組用Java編寫的自然語言分析工具
斯坦福 CoreNLP 提供了一組用 Java 編寫的自然語言分析工具。它可以接收原始的人類語言文本輸入,并給出單詞的基本形式、詞性、公司名稱、人名等,規(guī)范化和解釋日期、時間和數(shù)字量,標記句子的結構 在短語或單詞依賴方面,并指出哪些名詞短語指的是相同的實體。
??PyTorch-NLP
https://github.com/PetrochukM/PyTorch-NLP
PyTorch-NLP 擴展了 PyTorch并提供基本的文本數(shù)據(jù)處理功能。
??NLP技術難點總結
自然語言理解的5個難點:
語言的多樣性
語言的歧義性
語言的魯棒性
語言的知識依賴
語言的上下文
在多模態(tài)的自然語言處理技術方面,也有三大難點:
其一,語義鴻溝是普遍存在的,單模態(tài)尚且如此,多模態(tài)要融合時無疑難上加難;
其二,多模態(tài)數(shù)據(jù)間存在特征異構性,跨模態(tài)相關算法要有質的飛躍;
其三,建立多模態(tài)的數(shù)據(jù)集面臨極大的挑戰(zhàn);
數(shù)據(jù)匱乏也是NLP領域里一個永恒的問題,缺乏標注數(shù)據(jù)、樣本存在大量噪聲、數(shù)據(jù)存在偏差都是很常見的現(xiàn)象。在AI研發(fā)中,算力是基礎,算法基本開源,數(shù)據(jù)自然而然就成為了各家研究機構和企業(yè)角力的核心。尤其是當你需要一些特定的數(shù)據(jù)時,僅僅采集數(shù)據(jù)的代價就可能超出預估。