又一硬核 NLP 神器面世,案例、代碼、模型全部開源!
自然語言處理技術(shù)在各行業(yè)有著廣泛的應(yīng)用,然而長久以來,其落地并不是一帆風(fēng)順的。




針對這些棘手的問題,百度飛槳深耕產(chǎn)業(yè)界,選取NLP領(lǐng)域三大高頻場景——檢索、問答、情感分析,推出面向真實(shí)應(yīng)用場景的系統(tǒng)功能,覆蓋金融、電商零售、文娛、旅游、房地產(chǎn)、生活服務(wù)等多個(gè)行業(yè),萬方、榮耀、國美、驢媽媽旅游網(wǎng)、房天下、食行生鮮等均已基于相關(guān)方案成功完成業(yè)務(wù)上線。

語義檢索系統(tǒng)
檢索系統(tǒng)存在于人們?nèi)粘J褂玫暮芏喈a(chǎn)品中,比如商品搜索、學(xué)術(shù)文獻(xiàn)檢索、通用搜索引擎等。傳統(tǒng)方法匹配能力有限,只能捕捉字面匹配,而語義檢索能夠捕捉深層語義信息,達(dá)到更精準(zhǔn)、更廣泛地召回相似結(jié)果的目的。

圖:基于字面的稀疏向量檢索 vs 基于語義的稠密向量檢索
PaddleNLP本次推出語義檢索系統(tǒng),流程圖如下,其中左側(cè)為召回環(huán)節(jié),核心是語義向量抽取模型;右側(cè)是排序環(huán)節(jié),核心是排序模型。

圖:PaddleNLP Neural Search語義檢索系統(tǒng)流程圖
具備三大亮點(diǎn):
低門檻:數(shù)據(jù)+代碼+模型全部開源,無需標(biāo)注數(shù)據(jù)也能夠輕松構(gòu)建起檢索系統(tǒng),并且提供訓(xùn)練、預(yù)測、近似最近鄰(ANN)搜索一站式能力。
精度高:結(jié)合業(yè)界前沿模型和自有創(chuàng)新思路,推出適用多種數(shù)據(jù)情況、靈活的技術(shù)方案,精度超高。
表:不同技術(shù)方案下的Recall@K指標(biāo)

性能好:與開源向量數(shù)據(jù)庫Milvus打通,結(jié)合Paddle Inference,實(shí)現(xiàn)高性能建庫,并在千萬級數(shù)據(jù)中做到毫秒級快速查詢。

圖:文獻(xiàn)檢索示例
前往GitHub獲取開源代碼和模型:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search
預(yù)訓(xùn)練時(shí)代的端到端問答 -?RocketQA
問答系統(tǒng)是信息檢索系統(tǒng)的一種高級形式,它能用準(zhǔn)確、簡潔的自然語言回答用戶提出的問題,問答系統(tǒng)廣泛應(yīng)用于搜索引擎、智能設(shè)備、智能客服等產(chǎn)品中。

圖:問答系統(tǒng)應(yīng)用示例
傳統(tǒng)的問答系統(tǒng)通常由多個(gè)模塊級聯(lián)組成,而在預(yù)訓(xùn)練時(shí)代我們可以用一個(gè)端到端模型代替?zhèn)鹘y(tǒng)的復(fù)雜系統(tǒng),實(shí)現(xiàn)更好的效果。然而,研發(fā)端到端問答模型需要大量的計(jì)算和數(shù)據(jù)資源,為了使更多開發(fā)者能方便地獲取最先進(jìn)的問答技術(shù),我們推出了RocketQA開發(fā)工具,有三大亮點(diǎn):
領(lǐng)先:提供國際領(lǐng)先的端到端問答技術(shù)-RocketQA,效果遠(yuǎn)超傳統(tǒng)問答系統(tǒng),與國際知名公司的技術(shù)方案相比也有一定優(yōu)勢。

中文:開源首個(gè)中文端到端問答模型,該模型基于知識增強(qiáng)的預(yù)訓(xùn)練模型ERNIE和百萬量級的人工標(biāo)注數(shù)據(jù)集DuReader訓(xùn)練得到,效果優(yōu)異。
易用:提供11種預(yù)置模型、2種安裝方式和極簡的開發(fā)接口,?基于神經(jīng)搜索框架JINA和近似近鄰檢索庫FAISS,2行命令即可搭建自己的問答系統(tǒng)。

前往GitHub獲取開源代碼和模型:
https://github.com/PaddlePaddle/RocketQA
情感分析系統(tǒng)?
情感分析旨在對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理,其廣泛應(yīng)用于消費(fèi)決策、輿情分析、個(gè)性化推薦等領(lǐng)域,具有很高的商業(yè)價(jià)值。
依托百度領(lǐng)先的情感分析技術(shù),食行生鮮自動生成菜品評論標(biāo)簽輔助用戶購買,并指導(dǎo)運(yùn)營采購部門調(diào)整選品和促銷策略;房天下向購房者和開發(fā)商直觀展示樓盤的用戶口碑情況,并對好評樓盤置頂推薦;國美搭建服務(wù)智能化評分系統(tǒng),客服運(yùn)營成本減少40%,負(fù)面反饋處理率100%。
為了降低技術(shù)門檻,方便開發(fā)者共享效果領(lǐng)先的情感分析技術(shù),PaddleNLP本次開源的情感分析系統(tǒng),具備三大亮點(diǎn):
覆蓋任務(wù)全:集成句子級情感分類、評論觀點(diǎn)抽取、屬性級情感分類等多種情感分析能力,并開源模型,且打通模型訓(xùn)練、評估、預(yù)測部署全流程。

圖:PaddleNLP Sentiment Analysis核心能力展示
效果領(lǐng)先:集成百度研發(fā)的基于情感知識增強(qiáng)的預(yù)訓(xùn)練模型SKEP,為各類情感分析任務(wù)提供統(tǒng)一且強(qiáng)大的情感語義表示能力。

預(yù)測性能強(qiáng):針對預(yù)訓(xùn)練模型預(yù)測效率低的問題,開源小模型PP-MiniLM,配套裁剪、量化優(yōu)化策略,預(yù)測性能提速900%!
前往GitHub獲取開源代碼和模型:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis
如果您想了解詳細(xì)技術(shù)方案和完整代碼、下載開源數(shù)據(jù)和模型,歡迎關(guān)注GitHub Repo,也可在直播中與百度高工交流哦:
PaddleNLP:?https://github.com/PaddlePaddle/PaddleNLP
RocketQA:?https://github.com/PaddlePaddle/RocketQA
直播預(yù)告課
12.28~12.30日每晚20:15~21:30,百度高工將帶來直播講解,剖析行業(yè)痛點(diǎn)問題,深入解讀系統(tǒng)方案,并帶來手把手項(xiàng)目實(shí)戰(zhàn)。閱讀原文即可報(bào)名,或者掃碼上車!我們直播間不見不散~
掃碼報(bào)名直播課,加入技術(shù)交流群

