??Wit.ai

文檔:?wit.ai/docs
Demo:?labs.wit.ai/demo/index.…

如果需要為開發(fā)人員提供與語音自動化相關的日常工作，那么它將是最佳選擇。Wit為家庭自動化、聯(lián)網汽車、機器人、智能手機、可穿戴設備等創(chuàng)建智能語音界面。而且還免費。

??Geneea

文檔:?api.geneea.com/
Demo:?demo.geneea.com/

Geneea對提供的原始文本，從給定URL提取的文本或直接從提供的文檔執(zhí)行分析（自然語言處理）。Geneea對語言、主題識別、情感檢測、實體提取、自動標記等主題進行分析，并對捷克文本的變音符號進行各種校正。

??Hugging Face Transformers

GitHub - huggingface/transformers: ?? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.

Transformers提供了數(shù)千個預訓練模型來執(zhí)行不同形式的任務，例如文本、視覺和音頻。這些模型可應用于文本（文本分類、信息提取、問答、摘要、翻譯、文本生成，支持超過 100 種語言）、圖像（圖像分類、對象檢測和分割）和音頻（語音識別和音頻分類）。Transformer 模型還可以結合多種模式執(zhí)行任務，例如表格問答、OCR、從掃描文檔中提取信息、視頻分類和視覺問答。

??Gensim

https://github.com/RaRe-Technologies/gensim
gensim · PyPI

Gensim 是一個 Python 庫，用于主題建模、文檔索引和大型語料庫的相似性檢索。目標受眾是 NLP 和信息檢索 (IR) 社區(qū)。Gensim 具有流行算法的高效多核實現(xiàn)，包括但不限于Latent Semantic Analysis (LSA/LSI/SVD)、Latent Dirichlet Allocation (LDA)、Random Projections (RP)、Hierarchical Dirichlet Process(HDP) 或 word2vec 深度學習等。

??Diffbot Analyze

文檔:?www.diffbot.com/dev/docs/
Demo:?www.diffbot.com/

該API執(zhí)行自動識別、分析和提取，可以輕松地從任何URL傳送每個數(shù)據(jù)（文本，照片，視頻）。它將人工智能、機器學習、計算機視覺和NLP相結合。此外，可以將其與自定義API同時使用，以便使用手動規(guī)則來獲取數(shù)據(jù)。

??Bitext

文檔:?docs.api.bitext.com/
Demo:?parser.bitext.com/

Bitext API是另一個深度語言分析工具，提供易于導出到各種數(shù)據(jù)管理工具的數(shù)據(jù)。該平臺產品可用于聊天機器人和智能助手、CS和Sentiment，以及一些其他核心NLP任務。這個API的重點是語義、語法、詞典和語料庫，可用于80多種語言。此外，該API是客戶反饋分析自動化方面的最佳API之一。該公司聲稱可以將洞察的準確度做到90%。

??AllenNLP

GitHub - allenai/allennlp-models: Officially supported AllenNLP models

AllenNLP是基于 PyTorch 構建的 NLP 研究庫，使用開源協(xié)議為Apache 2.0 ，它包含用于在各種語言任務上開發(fā)最先進的深度學習模型并提供了廣泛的現(xiàn)有模型實現(xiàn)集合，這些實現(xiàn)都是按照高標準設計，為進一步研究奠定了良好的基礎。AllenNLP 提供了一種高級配置語言來實現(xiàn) NLP 中的許多常見方法，例如transformer、多任務訓練、視覺+語言任務、公平性和可解釋性。這允許純粹通過配置對廣泛的任務進行實驗，因此使用者可以專注于解決研究中的重要問題。

??CoreNLP

CoreNLP: CoreNLP 是斯坦福提供的一組用Java編寫的自然語言分析工具

斯坦福 CoreNLP 提供了一組用 Java 編寫的自然語言分析工具。它可以接收原始的人類語言文本輸入，并給出單詞的基本形式、詞性、公司名稱、人名等，規(guī)范化和解釋日期、時間和數(shù)字量，標記句子的結構在短語或單詞依賴方面，并指出哪些名詞短語指的是相同的實體。

??PyTorch-NLP

https://github.com/PetrochukM/PyTorch-NLP

PyTorch-NLP 擴展了 PyTorch并提供基本的文本數(shù)據(jù)處理功能。

??NLP技術難點總結

自然語言理解的5個難點：

語言的多樣性
語言的歧義性
語言的魯棒性
語言的知識依賴
語言的上下文

在多模態(tài)的自然語言處理技術方面，也有三大難點：

其一，語義鴻溝是普遍存在的，單模態(tài)尚且如此，多模態(tài)要融合時無疑難上加難；
其二，多模態(tài)數(shù)據(jù)間存在特征異構性，跨模態(tài)相關算法要有質的飛躍；
其三，建立多模態(tài)的數(shù)據(jù)集面臨極大的挑戰(zhàn)；

數(shù)據(jù)匱乏也是NLP領域里一個永恒的問題，缺乏標注數(shù)據(jù)、樣本存在大量噪聲、數(shù)據(jù)存在偏差都是很常見的現(xiàn)象。在AI研發(fā)中，算力是基礎，算法基本開源，數(shù)據(jù)自然而然就成為了各家研究機構和企業(yè)角力的核心。尤其是當你需要一些特定的數(shù)據(jù)時，僅僅采集數(shù)據(jù)的代價就可能超出預估。