世界人工智能大賽方案匯總(nlp,cv)

有同學(xué)希望通過今年的世界人工智能大賽來提升專業(yè)能力,同時增加履歷,拿到這次賽事的直推offer。根據(jù)大家反饋遇到的問題,我們邀請了頭部選手阿水,致Great,姚程棟等,針對世界人工智能創(chuàng)新大賽NLP賽道和CV賽道進(jìn)行了賽題分析和開源方案總結(jié),希望對大家有所幫助。
一、NLP賽道學(xué)習(xí)
賽題背景分析
《互聯(lián)網(wǎng)輿情企業(yè)風(fēng)險事件的識別和預(yù)警》通過采集互聯(lián)網(wǎng)上的企業(yè)輿情信息來挖掘潛在風(fēng)險事件是一種較為有效的方式。從海量的互聯(lián)網(wǎng)資訊中,識別出存在潛在風(fēng)險的公司主題名稱,并通過自然語言理解,對風(fēng)險事件的輿情類型進(jìn)行分類。
如下圖所示,該實踐賽題包含命名主題識別(識別公司主題名稱)和文本分類(輿情類型分類)兩大任務(wù),均屬于NLP中基本、常見且重要的任務(wù)類型。適合實踐較少的學(xué)習(xí)者上手。

1.2 實踐數(shù)據(jù)
將互聯(lián)網(wǎng)中新聞標(biāo)題數(shù)據(jù)作為訓(xùn)練集,數(shù)據(jù)在「參賽提交」標(biāo)簽下「下載」欄目中獲取。訓(xùn)練集數(shù)據(jù)維度如下。數(shù)據(jù)集下載可參考文檔《報名及數(shù)據(jù)集下載指南》。

基礎(chǔ)方案參考
完整實踐Baseline下載:
https://pan.baidu.com/s/1Odao4jGegiG5A4kNfUj6UQ 提取碼:1234
代碼實踐思路如下圖。對于初學(xué)者,遇到環(huán)境配置問題可參考《環(huán)境配置指南》

資料匯總
賽題地址:互聯(lián)網(wǎng)輿情企業(yè)風(fēng)險事件的識別和預(yù)警
http://ailab.aiwin.org.cn/competitions/48
Baseline講解:
https://www.bilibili.com/video/BV1Fv411E7Vs
進(jìn)階提升講解:
https://www.bilibili.com/video/BV1XB4y1c7Ys
環(huán)境配置指南:
https://shimo.im/docs/loqeW9vBRohG5Anz/
報名及數(shù)據(jù)集下載指南:
https://shimo.im/docs/D6xOt6klfF8JUz3d/
二、CV賽道學(xué)習(xí)
賽題背景分析
1.1 實踐任務(wù)
《保險文本視覺認(rèn)知問答競賽》利用OCR技術(shù)自動識別影像資料,通過AI智能判斷所識別文字的內(nèi)在邏輯,回答關(guān)于圖片的自然語言問題。問題的答案是可以從圖片中提取的任何文本/標(biāo)記。
例如:

提問:西藥費的金額是多少?
回答:140.16
提問:140.16元購買了什么藥品?
回答:{甲}緣沙坦膠囊{基}
1.2 實踐數(shù)據(jù)
本次大賽提供的數(shù)據(jù)集使用的文檔類型包括票據(jù)、說明、報告等圖片。混合了印刷、打字和手寫的內(nèi)容。下列僅提供其中兩種文檔類型:票據(jù)和說明書。
基礎(chǔ)方案參考
代碼已部署到線上,可直接運行。使用平臺為AI Studio,選擇高級版GPU環(huán)境運行代碼即可,可申請免費算力。
代碼地址:https://aistudio.baidu.com/aistudio/projectdetail/1910545?shared=1

資料匯總
賽題地址:保險文本視覺認(rèn)知問答競賽
http://ailab.aiwin.org.cnitions/49
Baseline講解:
https://www.bilibili.com/video/BV1u64y117UF
進(jìn)階提升講解:
https://www.bilibili.com/video/BV1XB4y1c7Ys
報名及數(shù)據(jù)集下載指南:
https://shimo.im/docs/R13j89pKrEiZ25k5/
↓↓點擊直接進(jìn)入賽事
