思思精品热视频,国产AV天堂,大香蕉在线网亚洲欧洲中文字,性爱视频黄色在线观看,一级操逼视频,免费一级A片在线观看视频,少妇高潮日韩,99热高清在线观看

向AI轉型的程序員都關注了這個號??????

機器學習AI算法工程?? 公眾號：datayx

一、背景及下載地址

1. 背景

2020年初Covid-19疫情的爆發(fā)對各行各業(yè)產(chǎn)生了不可小覷的影響，也讓以線下方式為主的傳統(tǒng)教育在短期內(nèi)受到了極大的沖擊，更多人開始看到科技對教育市場的價值。在線教育成為了特殊時期教學的最佳選擇，大規(guī)模地滲透至每一所學校、每一個家庭。在線教育的爆火使得教育行業(yè)產(chǎn)生了海量的在線教學語音識別（Automatic Speech Recognition，以下簡稱ASR）文本數(shù)據(jù)，極大地推動了教育領域技術的發(fā)展。

數(shù)據(jù)作為產(chǎn)業(yè)最為核心和寶貴的資源之一，更是自然語言處理技術（Natural Language Processing，以下簡稱NLP）在各個領域得以應用和發(fā)展的基礎。在線教育文本數(shù)據(jù)有著區(qū)別于通用場景數(shù)據(jù)的特有屬性，給在線教育領域NLP的研究、應用和發(fā)展帶來了極大的挑戰(zhàn)，一是從音視頻轉錄出來的文本數(shù)據(jù)中，存在著較多的ASR錯誤，這些錯誤可能會對文本處理相關任務的效果造成較大的影響；二是數(shù)據(jù)中含有大量的教育領域特有的專有詞匯，現(xiàn)有的通用領域的開源詞向量和開源預訓練語言模型（如Google BERT Base[1]，Roberta[2]等）對于這些詞匯的語義表示能力有限，進而會影響后續(xù)任務的效果。

為了幫助解決這兩個問題，好未來AI中臺機器學習團隊從多個來源收集了超過2000萬條（約包含3.8億Tokens）的教育領域中文ASR文本數(shù)據(jù)，基于此建立了教育領域首個在線教學中文預訓練模型TAL-EduBERT，并把其推至開源。

從2018年谷歌發(fā)布預訓練模型BERT以來，以BERT為代表的預訓練語言模型，在各個自然語言處理任務上都達到了SOTA的效果。并且作為通用的預訓練語言模型，BERT的出現(xiàn)，使得NLP算法工程師不需要進行繁重的網(wǎng)絡結構的修改，直接對于下游任務進行fine-tune，便可得到比以往的深度學習方法更好的效果，顯著的減輕了NLP算法工程師的繁重的調(diào)整模型網(wǎng)絡結構的工作，降低了算法應用的成本，預訓練語言模型已經(jīng)成為工作中不可或缺的一項基礎技術。

但是，當前開源的各類中文領域的深度預訓練模型，多是面向通用領域的應用需求，在包括教育在內(nèi)的多個垂直領域均沒有看到相關開源模型。相較于谷歌發(fā)布的Google BERT Base以及開源的中文Roberta模型，好未來本次開源的TAL-EduBERT在多個教育領域的下游任務中得到了顯著的效果提升。好未來希望通過本次開源，助力推動 NLP技術在教育領域的應用發(fā)展，歡迎各位同仁下載使用。

項目代碼?獲取方式：

關注微信公眾號 datayx? 然后回復?在線教學?即可獲取。

2. 模型下載

下載地址：

pytorch版：https://ai.100tal.com/download/TAL-EduBERT.zip

tensorflow版：https://ai.100tal.com/download/TAL-EduBERT-TF.zip

二、模型結構及訓練數(shù)據(jù)

1. 模型結構

TAL-EduBERT在網(wǎng)絡結構上，采用與Google BERT Base相同的結構，包含12層的Transformer編碼器、768個隱藏單元以及12個multi-head attention的head。之所以使用BERT Base的網(wǎng)絡結構，是因為我們考慮到實際使用的便捷性和普遍性，后續(xù)會進一步開源其他教育領域ASR預訓練語言模型。

2. 訓練語料

TAL-EduBERT所采用的預訓練語料，主要源于好未來內(nèi)部積淀的海量教師教學語音經(jīng)ASR轉錄而得到的文本，對于語料進行篩選、預處理后，選取了超過2000萬條教育ASR文本，大約包含3.8億Tokens。

3. 預訓練方式

如上圖所示，TAL-EduBERT采取了與BERT相同的兩種預訓練任務來進行預訓練學習，分別是教育領域字級別任務（Masked Language Modeling，簡稱MLM）和句子級別的訓練任務（Next Sentence Prediction，簡稱NSP），通過這兩個任務，使得TAL-EduBERT能夠捕獲教育ASR文本數(shù)據(jù)中的字、詞和句子級別的語法和語義信息。

三、下游任務實驗結果

為了證明TAL-EduBERT在下游任務上的效果，我們從實際業(yè)務中抽取了4類典型的在線教育領域教學行為預測任務數(shù)據(jù)集，詳見文獻[3][4]。在此基礎上，我們與Google BERT Base這一在中文領域應用最為廣泛的模型以及效果較好的Roberta做了對比，實驗結果表明，TAL-EduBERT在教育ASR下游任務上取得了較好的效果。

1. 實驗簡介：教師行為預測

此任務來源于我們對老師的教學行為進行智能化的評估，具體我們評估了四項教師行為，分別是引導學生進行課后總結（Conclude）、帶著學生記筆記（Note）、表揚學生（Praise）和提問學生（QA）。通過對教師教學行為進行分類，給老師打上行為標簽，從而更方便地分析老師教學行為，進而輔助老師更好地教學，提升教學質(zhì)量。

四、適用范圍、使用方法及使用案例

1. 適用范圍：

相較于Google BERT Base和Roberta，TAL-EduBERT基于大量教育ASR文本數(shù)據(jù)訓練，因此對于ASR的識別錯誤具有較強的魯棒性，并且在教育場景的下游任務上也具有較好的效果。鑒于此，我們推薦從事教育，并且工作內(nèi)容與ASR文本相關的NLP算法工程師使用我們的模型，希望能通過本次的開源，推進自然語言處理在教育領域的應用和發(fā)展。

2. 使用方法：

與Google發(fā)布的原生BERT使用方式一致，支持transformers包，因此在使用時，直接進行模型路徑替換即可。

3.使用案例：

五、小結

為了證明TAL-EduBERT在教育領域下游任務的優(yōu)勢，我們從教育場景中的四類業(yè)務問題和數(shù)據(jù)入手進行了對比實驗，對比Google BERT Base和Roberta這兩種通用領域的預訓練模型可知，TAL-EduBERT效果顯著提升，在F1上最高提升大約3個百分點。因此，想要在教育領域進行NLP相關方向探索的技術伙伴可以直接使用TAL-EduBERT開展更專業(yè)地教育技術實踐訓練。

機器學習算法AI大數(shù)據(jù)技術

?搜索公眾號添加：?datanlp

長按圖片，識別二維碼

閱讀過本文的人還看了以下文章：

TensorFlow 2.0深度學習案例實戰(zhàn)

基于40萬表格數(shù)據(jù)集TableBank，用MaskRCNN做表格檢測

《基于深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視頻課】最全的目標檢測算法系列講解，通俗易懂！

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門：基于Python的理論與實現(xiàn)》高清中文PDF+源碼

《深度學習：基于Keras的Python實踐》PDF和代碼