<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          首個在線教學中文預訓練模型TAL-EduBERT

          共 3867字,需瀏覽 8分鐘

           ·

          2021-10-26 05:35


          向AI轉型的程序員都關注了這個號??????

          機器學習AI算法工程?? 公眾號:datayx


          一、背景及下載地址

          1. 背景

          2020年初Covid-19疫情的爆發(fā)對各行各業(yè)產(chǎn)生了不可小覷的影響,也讓以線下方式為主的傳統(tǒng)教育在短期內(nèi)受到了極大的沖擊,更多人開始看到科技對教育市場的價值。在線教育成為了特殊時期教學的最佳選擇,大規(guī)模地滲透至每一所學校、每一個家庭。在線教育的爆火使得教育行業(yè)產(chǎn)生了海量的在線教學語音識別(Automatic Speech Recognition,以下簡稱ASR)文本數(shù)據(jù),極大地推動了教育領域技術的發(fā)展。

          數(shù)據(jù)作為產(chǎn)業(yè)最為核心和寶貴的資源之一,更是自然語言處理技術(Natural Language Processing,以下簡稱NLP)在各個領域得以應用和發(fā)展的基礎。在線教育文本數(shù)據(jù)有著區(qū)別于通用場景數(shù)據(jù)的特有屬性,給在線教育領域NLP的研究、應用和發(fā)展帶來了極大的挑戰(zhàn),一是從音視頻轉錄出來的文本數(shù)據(jù)中,存在著較多的ASR錯誤,這些錯誤可能會對文本處理相關任務的效果造成較大的影響;二是數(shù)據(jù)中含有大量的教育領域特有的專有詞匯,現(xiàn)有的通用領域的開源詞向量和開源預訓練語言模型(如Google BERT Base[1],Roberta[2]等)對于這些詞匯的語義表示能力有限,進而會影響后續(xù)任務的效果。

          為了幫助解決這兩個問題,好未來AI中臺機器學習團隊從多個來源收集了超過2000萬條(約包含3.8億Tokens)的教育領域中文ASR文本數(shù)據(jù),基于此建立了教育領域首個在線教學中文預訓練模型TAL-EduBERT,并把其推至開源。

          從2018年谷歌發(fā)布預訓練模型BERT以來,以BERT為代表的預訓練語言模型, 在各個自然語言處理任務上都達到了SOTA的效果。并且作為通用的預訓練語言模型,BERT的出現(xiàn),使得NLP算法工程師不需要進行繁重的網(wǎng)絡結構的修改,直接對于下游任務進行fine-tune,便可得到比以往的深度學習方法更好的效果,顯著的減輕了NLP算法工程師的繁重的調(diào)整模型網(wǎng)絡結構的工作,降低了算法應用的成本,預訓練語言模型已經(jīng)成為工作中不可或缺的一項基礎技術。

          但是,當前開源的各類中文領域的深度預訓練模型,多是面向通用領域的應用需求,在包括教育在內(nèi)的多個垂直領域均沒有看到相關開源模型。相較于谷歌發(fā)布的Google BERT Base以及開源的中文Roberta模型,好未來本次開源的TAL-EduBERT在多個教育領域的下游任務中得到了顯著的效果提升。好未來希望通過本次開源,助力推動 NLP技術在教育領域的應用發(fā)展,歡迎各位同仁下載使用。

            項目 代碼?獲取方式:

            關注微信公眾號 datayx? 然后回復?在線教學?即可獲取。

          2. 模型下載

          下載地址:

          pytorch版:https://ai.100tal.com/download/TAL-EduBERT.zip

          tensorflow版:https://ai.100tal.com/download/TAL-EduBERT-TF.zip

          二、 模型結構及訓練數(shù)據(jù)

          1. 模型結構

          TAL-EduBERT在網(wǎng)絡結構上,采用與Google BERT Base相同的結構,包含12層的Transformer編碼器、768個隱藏單元以及12個multi-head attention的head。之所以使用BERT Base的網(wǎng)絡結構,是因為我們考慮到實際使用的便捷性和普遍性,后續(xù)會進一步開源其他教育領域ASR預訓練語言模型。

          2. 訓練語料

          TAL-EduBERT所采用的預訓練語料,主要源于好未來內(nèi)部積淀的海量教師教學語音經(jīng)ASR轉錄而得到的文本,對于語料進行篩選、預處理后,選取了超過2000萬條教育ASR文本,大約包含3.8億Tokens。

          3. 預訓練方式



          如上圖所示,TAL-EduBERT采取了與BERT相同的兩種預訓練任務來進行預訓練學習,分別是教育領域字級別任務(Masked Language Modeling,簡稱MLM)和句子級別的訓練任務(Next Sentence Prediction,簡稱NSP),通過這兩個任務,使得TAL-EduBERT能夠捕獲教育ASR文本數(shù)據(jù)中的字、詞和句子級別的語法和語義信息。

          三、 下游任務實驗結果

          為了證明TAL-EduBERT在下游任務上的效果,我們從實際業(yè)務中抽取了4類典型的在線教育領域教學行為預測任務數(shù)據(jù)集,詳見文獻[3][4]。在此基礎上,我們與Google BERT Base這一在中文領域應用最為廣泛的模型以及效果較好的Roberta做了對比,實驗結果表明,TAL-EduBERT在教育ASR下游任務上取得了較好的效果。

          1. 實驗簡介:教師行為預測

          此任務來源于我們對老師的教學行為進行智能化的評估,具體我們評估了四項教師行為,分別是引導學生進行課后總結(Conclude)、帶著學生記筆記(Note)、表揚學生(Praise)和提問學生(QA)。通過對教師教學行為進行分類,給老師打上行為標簽,從而更方便地分析老師教學行為,進而輔助老師更好地教學,提升教學質(zhì)量。


          四、 適用范圍、使用方法及使用案例

          1. 適用范圍:

          相較于Google BERT Base和Roberta,TAL-EduBERT基于大量教育ASR文本數(shù)據(jù)訓練,因此對于ASR的識別錯誤具有較強的魯棒性,并且在教育場景的下游任務上也具有較好的效果。鑒于此,我們推薦從事教育,并且工作內(nèi)容與ASR文本相關的NLP算法工程師使用我們的模型,希望能通過本次的開源,推進自然語言處理在教育領域的應用和發(fā)展。

          2. 使用方法:

          與Google發(fā)布的原生BERT使用方式一致,支持transformers包,因此在使用時,直接進行模型路徑替換即可。

          3.使用案例:


          五、 小結

          為了證明TAL-EduBERT在教育領域下游任務的優(yōu)勢,我們從教育場景中的四類業(yè)務問題和數(shù)據(jù)入手進行了對比實驗,對比Google BERT Base和Roberta這兩種通用領域的預訓練模型可知,TAL-EduBERT效果顯著提升,在F1上最高提升大約3個百分點。因此,想要在教育領域進行NLP相關方向探索的技術伙伴可以直接使用TAL-EduBERT開展更專業(yè)地教育技術實踐訓練。



          機器學習算法AI大數(shù)據(jù)技術

          ?搜索公眾號添加:?datanlp

          長按圖片,識別二維碼




          閱讀過本文的人還看了以下文章:


          TensorFlow 2.0深度學習案例實戰(zhàn)


          基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測


          《基于深度學習的自然語言處理》中/英PDF


          Deep Learning 中文版初版-周志華團隊


          【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!


          《美團機器學習實踐》_美團算法團隊.pdf


          《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼


          《深度學習:基于Keras的Python實踐》PDF和代碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學習視頻,從入門到實戰(zhàn)項目


          2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


          《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼


          《深度學習之pytorch》pdf+附書源碼


          PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)


          李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!


          《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼


          將機器學習模型部署為REST API


          FashionAI服裝屬性標簽圖像識別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別


          yolo3 檢測出圖像中的不規(guī)則漢字


          同樣是機器學習算法工程師,你的面試為什么過不了?


          前海征信大數(shù)據(jù)算法:風險概率預測


          【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類


          VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學習


          如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過


          全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識別手寫中文網(wǎng)站


          中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程



          不斷更新資源

          深度學習、機器學習、數(shù)據(jù)分析、python

          ?搜索公眾號添加:?datayx??


          瀏覽 70
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  草比在线观看 | 亚洲AV成人一区二区三区不卡 | 91人妻人人人人爽 | 久久久亚洲成人 | 99久久人妻无码精品系列 |