2020 LIC競(jìng)賽冠軍團(tuán)隊(duì)經(jīng)驗(yàn)分享!

語(yǔ)言是人類信息傳遞最重要的媒介,讓機(jī)器理解語(yǔ)言并進(jìn)行交互是人工智能的基本挑戰(zhàn)。為了推動(dòng)語(yǔ)言理解與交互技術(shù)發(fā)展,中國(guó)中文信息學(xué)會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)和百度公司聯(lián)合舉辦“2020語(yǔ)言與智能技術(shù)競(jìng)賽”。
比賽歷時(shí)3個(gè)月,共吸引了來(lái)自海內(nèi)外知名企業(yè)、高校及科研機(jī)構(gòu)的5307支隊(duì)伍報(bào)名,收到近1.5萬(wàn)份結(jié)果提交,五大任務(wù)的系統(tǒng)效果較基線提升平均約90%。
在精彩紛呈的角逐中,云知聲智能科技股份有限公司、國(guó)防科技大學(xué)、深圳追一科技有限公司、京東方智能物聯(lián)首席技術(shù)官組織、深思考人工智能機(jī)器人科技(北京)有限公司和大連理工大學(xué)脫穎而出,獲得了比賽的冠軍。作為冠軍隊(duì)伍,他們的方法和思路,對(duì)于相關(guān)方向的研究者們有著借鑒意義。
11月7日,五大任務(wù)冠軍團(tuán)隊(duì)將親臨直播間做評(píng)測(cè)報(bào)告,為大家?guī)?lái)比賽經(jīng)驗(yàn)的分享!機(jī)器閱讀理解、面向推薦的對(duì)話、語(yǔ)義解析、關(guān)系抽取和事件抽取五個(gè)核心任務(wù)全面覆蓋,干貨滿滿,精彩不容錯(cuò)過(guò)!
直播時(shí)間:11月7日10:00-12:00
10:00-10:25 機(jī)器閱讀理解任務(wù)
針對(duì)過(guò)敏感和過(guò)穩(wěn)定問(wèn)題,分別從相似問(wèn)句構(gòu)建和相似篇章構(gòu)建兩個(gè)角度提出兩種數(shù)據(jù)增強(qiáng)方式,針對(duì)領(lǐng)域內(nèi)和未知領(lǐng)域問(wèn)題使用增量和二階段訓(xùn)練增強(qiáng)模型性能,有效增強(qiáng)了模型的魯棒性。
10:25-10:50 ?面向推薦的對(duì)話任務(wù)
任務(wù)是在給定的知識(shí)庫(kù)下,針對(duì)目標(biāo)完成多輪對(duì)話。在該任務(wù)目標(biāo)下,基于預(yù)訓(xùn)練模型,采用分桶的編碼方式和多源信息融合的解碼器,將知識(shí)按長(zhǎng)度分桶、獨(dú)立編碼,大大減少了內(nèi)存占用,構(gòu)建了一個(gè)端到端的對(duì)話模型,在自動(dòng)和人工評(píng)測(cè)均取得第一的好成績(jī)。
10:50-11:15 ?語(yǔ)義解析任務(wù)
相較于Seq2Seq的傳統(tǒng)方案,新方法將Seq2Seq與模板填充進(jìn)行結(jié)合,首先使用Seq2Seq生成SQL模板,然后采用模板填充技術(shù)對(duì)模板中的細(xì)節(jié)部分進(jìn)行預(yù)測(cè)填充,有效地解決了傳統(tǒng)Seq2Seq所具有的SQL組件順序敏感、計(jì)算資源依賴較高、SQL生成效率較低等問(wèn)題,在最終測(cè)試集上取得了76.5%的成績(jī)
11:15-11:40 ?關(guān)系抽取任務(wù)
相對(duì)于先抽取實(shí)體再關(guān)系分類的傳統(tǒng)方法,把實(shí)體抽取任務(wù)分為主語(yǔ)抽取、賓語(yǔ)抽取、關(guān)系分類三個(gè)步驟,輸出層采用機(jī)器閱讀理解中的指針網(wǎng)絡(luò)作為基本結(jié)構(gòu),有效解決了實(shí)體進(jìn)行兩兩匹配帶來(lái)的大量負(fù)樣本,用引入虛擬節(jié)點(diǎn)的方式解決復(fù)雜賓語(yǔ)的問(wèn)題,用PU Learning解決遠(yuǎn)監(jiān)督召回率較低的問(wèn)題。
11:40-12:05 ?事件抽取任務(wù)
針對(duì)限定領(lǐng)域的事件抽取任務(wù),不同于先進(jìn)行觸發(fā)詞抽取再進(jìn)行事件角色抽取的傳統(tǒng)方案,該方案采用基于BERT的多層標(biāo)簽指針網(wǎng)絡(luò),對(duì)事件角色進(jìn)行端到端的標(biāo)注,并有效解決了事件抽取任務(wù)中的角色重疊和元素重疊等問(wèn)題。
直播地址
掃描長(zhǎng)圖中的二維碼進(jìn)入交流群獲取直播鏈接,周六早10點(diǎn),不見(jiàn)不散!

