簡介
VLE?(Vision-Language?Encoder) 是一種基于預(yù)訓(xùn)練文本和圖像編碼器的圖像-文本多模態(tài)理解模型,可應(yīng)用于如視覺問答、圖像-文本檢索等多模態(tài)判別任務(wù)。特別地,在對(duì)語言理解和推理能力有更強(qiáng)要求的視覺常識(shí)推理(VCR)任務(wù)中,VLE取得了公開模型中的最佳效果。在線演示地址:http... 更多
技術(shù)信息
開源協(xié)議
Apache-2.0
開發(fā)語言
Python
操作系統(tǒng)
跨平臺(tái)
軟件類型
開源軟件
所屬分類
神經(jīng)網(wǎng)絡(luò)/人工智能、 機(jī)器學(xué)習(xí)/深度學(xué)習(xí)
開源組織
無
地區(qū)
國產(chǎn)
適用人群
未知
評(píng)價(jià)
0.0(滿分 10 分)0 個(gè)評(píng)分
什么是點(diǎn)評(píng)分
圖片
表情
全部評(píng)價(jià)(
0)
推薦率
100%

