Lichee多模態(tài)內(nèi)容理解算法框架
Lichee 是一個多模態(tài)內(nèi)容理解算法框架項目,其中包含數(shù)據(jù)增強、預(yù)訓(xùn)練引擎、常見模型以及推理加速等模塊。
主要設(shè)計目標
- 縮短信息流內(nèi)容理解需求的研發(fā)周期
- 集成 AI 領(lǐng)域的成熟解決方案
Lichee 功能介紹以及適用場景
Lichee 主框架采用分層的思想組織模型訓(xùn)練,通過配置文件組合 DATA、Parser、MODEL、Optimizer、Scheduler 等組件,構(gòu)建具體的訓(xùn)練流程。此外,Lichee 還提供了數(shù)據(jù)清理、推理加速等能力。
Lichee 技術(shù)特點
1. 性能優(yōu)越的預(yù)訓(xùn)練引擎
提供了自研中文預(yù)訓(xùn)練模型,如LICHEE-NLG-ENGINE、LICHEE-RESNET-ENGINE等,免除訓(xùn)練中文預(yù)訓(xùn)練模型必須的大量資源和高質(zhì)量語料庫的限制。LICHEE/ShenZhou預(yù)訓(xùn)練模型先后于2021年1月8號和2021年9月19號登頂中文NLP權(quán)威榜單CLUE。相關(guān)技術(shù)創(chuàng)新在NLP頂會ACL 2021發(fā)表文章(https://arxiv.org/pdf/2108.00801.pdf)。
2. 基于配置化的模型訓(xùn)練
滿足90%+業(yè)務(wù)場景僅通過配置即可完成模型訓(xùn)練任務(wù)。
3. 提供二次開發(fā)能力
提供了基于插件的二次開發(fā)能力,來滿足更復(fù)雜的特殊業(yè)務(wù)場景。
4. 數(shù)據(jù)增強
為了進一步降低任務(wù)樣本的數(shù)量,提供了數(shù)據(jù)增強插件,解決臟數(shù)據(jù)清洗和數(shù)據(jù)生成等方面的工作。
5. 能力插件
提供了更多的結(jié)構(gòu)化能力插件,如詞法分析工具LICHEE-LAC、句子相似度工具LICHEE-SIM、人臉識別工具LICHEE-Face等。
6. 推理加速
集成推理加速的能力,能夠降低業(yè)務(wù)模型的實際部署成本。
Lichee 項目規(guī)劃
- 擴充各領(lǐng)域的預(yù)訓(xùn)練模型
- 擴充訓(xùn)練加速、推理加速能力
- 兼容 hugging face 項目
- 提升項目的易用性、開放性及效率
