首個在線教學中文預訓練模型TAL-EduBERT

向AI轉型的程序員都關注了這個號??????
機器學習AI算法工程?? 公眾號:datayx
一、背景及下載地址
1. 背景
2020年初Covid-19疫情的爆發(fā)對各行各業(yè)產(chǎn)生了不可小覷的影響,也讓以線下方式為主的傳統(tǒng)教育在短期內(nèi)受到了極大的沖擊,更多人開始看到科技對教育市場的價值。在線教育成為了特殊時期教學的最佳選擇,大規(guī)模地滲透至每一所學校、每一個家庭。在線教育的爆火使得教育行業(yè)產(chǎn)生了海量的在線教學語音識別(Automatic Speech Recognition,以下簡稱ASR)文本數(shù)據(jù),極大地推動了教育領域技術的發(fā)展。
數(shù)據(jù)作為產(chǎn)業(yè)最為核心和寶貴的資源之一,更是自然語言處理技術(Natural Language Processing,以下簡稱NLP)在各個領域得以應用和發(fā)展的基礎。在線教育文本數(shù)據(jù)有著區(qū)別于通用場景數(shù)據(jù)的特有屬性,給在線教育領域NLP的研究、應用和發(fā)展帶來了極大的挑戰(zhàn),一是從音視頻轉錄出來的文本數(shù)據(jù)中,存在著較多的ASR錯誤,這些錯誤可能會對文本處理相關任務的效果造成較大的影響;二是數(shù)據(jù)中含有大量的教育領域特有的專有詞匯,現(xiàn)有的通用領域的開源詞向量和開源預訓練語言模型(如Google BERT Base[1],Roberta[2]等)對于這些詞匯的語義表示能力有限,進而會影響后續(xù)任務的效果。
為了幫助解決這兩個問題,好未來AI中臺機器學習團隊從多個來源收集了超過2000萬條(約包含3.8億Tokens)的教育領域中文ASR文本數(shù)據(jù),基于此建立了教育領域首個在線教學中文預訓練模型TAL-EduBERT,并把其推至開源。
從2018年谷歌發(fā)布預訓練模型BERT以來,以BERT為代表的預訓練語言模型, 在各個自然語言處理任務上都達到了SOTA的效果。并且作為通用的預訓練語言模型,BERT的出現(xiàn),使得NLP算法工程師不需要進行繁重的網(wǎng)絡結構的修改,直接對于下游任務進行fine-tune,便可得到比以往的深度學習方法更好的效果,顯著的減輕了NLP算法工程師的繁重的調(diào)整模型網(wǎng)絡結構的工作,降低了算法應用的成本,預訓練語言模型已經(jīng)成為工作中不可或缺的一項基礎技術。
但是,當前開源的各類中文領域的深度預訓練模型,多是面向通用領域的應用需求,在包括教育在內(nèi)的多個垂直領域均沒有看到相關開源模型。相較于谷歌發(fā)布的Google BERT Base以及開源的中文Roberta模型,好未來本次開源的TAL-EduBERT在多個教育領域的下游任務中得到了顯著的效果提升。好未來希望通過本次開源,助力推動 NLP技術在教育領域的應用發(fā)展,歡迎各位同仁下載使用。
項目 代碼?獲取方式:
關注微信公眾號 datayx? 然后回復?在線教學?即可獲取。
2. 模型下載
下載地址:
pytorch版:https://ai.100tal.com/download/TAL-EduBERT.zip
tensorflow版:https://ai.100tal.com/download/TAL-EduBERT-TF.zip
二、 模型結構及訓練數(shù)據(jù)
1. 模型結構
TAL-EduBERT在網(wǎng)絡結構上,采用與Google BERT Base相同的結構,包含12層的Transformer編碼器、768個隱藏單元以及12個multi-head attention的head。之所以使用BERT Base的網(wǎng)絡結構,是因為我們考慮到實際使用的便捷性和普遍性,后續(xù)會進一步開源其他教育領域ASR預訓練語言模型。
2. 訓練語料
TAL-EduBERT所采用的預訓練語料,主要源于好未來內(nèi)部積淀的海量教師教學語音經(jīng)ASR轉錄而得到的文本,對于語料進行篩選、預處理后,選取了超過2000萬條教育ASR文本,大約包含3.8億Tokens。
3. 預訓練方式

如上圖所示,TAL-EduBERT采取了與BERT相同的兩種預訓練任務來進行預訓練學習,分別是教育領域字級別任務(Masked Language Modeling,簡稱MLM)和句子級別的訓練任務(Next Sentence Prediction,簡稱NSP),通過這兩個任務,使得TAL-EduBERT能夠捕獲教育ASR文本數(shù)據(jù)中的字、詞和句子級別的語法和語義信息。
三、 下游任務實驗結果
為了證明TAL-EduBERT在下游任務上的效果,我們從實際業(yè)務中抽取了4類典型的在線教育領域教學行為預測任務數(shù)據(jù)集,詳見文獻[3][4]。在此基礎上,我們與Google BERT Base這一在中文領域應用最為廣泛的模型以及效果較好的Roberta做了對比,實驗結果表明,TAL-EduBERT在教育ASR下游任務上取得了較好的效果。
1. 實驗簡介:教師行為預測
此任務來源于我們對老師的教學行為進行智能化的評估,具體我們評估了四項教師行為,分別是引導學生進行課后總結(Conclude)、帶著學生記筆記(Note)、表揚學生(Praise)和提問學生(QA)。通過對教師教學行為進行分類,給老師打上行為標簽,從而更方便地分析老師教學行為,進而輔助老師更好地教學,提升教學質(zhì)量。

四、 適用范圍、使用方法及使用案例
1. 適用范圍:
相較于Google BERT Base和Roberta,TAL-EduBERT基于大量教育ASR文本數(shù)據(jù)訓練,因此對于ASR的識別錯誤具有較強的魯棒性,并且在教育場景的下游任務上也具有較好的效果。鑒于此,我們推薦從事教育,并且工作內(nèi)容與ASR文本相關的NLP算法工程師使用我們的模型,希望能通過本次的開源,推進自然語言處理在教育領域的應用和發(fā)展。
2. 使用方法:
與Google發(fā)布的原生BERT使用方式一致,支持transformers包,因此在使用時,直接進行模型路徑替換即可。
3.使用案例:

五、 小結
為了證明TAL-EduBERT在教育領域下游任務的優(yōu)勢,我們從教育場景中的四類業(yè)務問題和數(shù)據(jù)入手進行了對比實驗,對比Google BERT Base和Roberta這兩種通用領域的預訓練模型可知,TAL-EduBERT效果顯著提升,在F1上最高提升大約3個百分點。因此,想要在教育領域進行NLP相關方向探索的技術伙伴可以直接使用TAL-EduBERT開展更專業(yè)地教育技術實踐訓練。
機器學習算法AI大數(shù)據(jù)技術
?搜索公眾號添加:?datanlp
長按圖片,識別二維碼
閱讀過本文的人還看了以下文章:
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數(shù)據(jù)分析、python
?搜索公眾號添加:?datayx??
