<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          BERT模型為什么這么強(qiáng)?

          共 3325字,需瀏覽 7分鐘

           ·

          2021-08-29 15:31

          ↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜

          如果你是一名自然語(yǔ)言處理從業(yè)者,那你一定聽(tīng)說(shuō)過(guò)大名鼎鼎的 BERT 模型。

          BERT(Bidirectional Encoder Representations From Transformers)模型的“榮耀時(shí)刻”是2018年:稱霸機(jī)器理解測(cè)試SQuAD,橫掃其他10項(xiàng)NLP測(cè)試,達(dá)成“全面超過(guò)人類”成就。

          BERT模型使用預(yù)訓(xùn)練和微調(diào)的方式來(lái)完成自然語(yǔ)言處理(Natural Language Processing,NLP)任務(wù)。這些任務(wù)包括問(wèn)答系統(tǒng)、情感分析和語(yǔ)言推理等。

          01
          為什么BERT模型這么強(qiáng)?

          BERT模型通過(guò)預(yù)測(cè)屏蔽子詞(先將句子中的部分子詞屏蔽,再令模型去預(yù)測(cè)被屏蔽的子詞)進(jìn)行訓(xùn)練的這種方式在語(yǔ)句級(jí)的語(yǔ)義分析中取得了極好的效果。

          BERT模型還使用了一種特別的訓(xùn)練方式(先預(yù)訓(xùn)練,再微調(diào)),這種方式可以使一個(gè)模型適用于多個(gè)應(yīng)用場(chǎng)景。這使得BERT模型刷新了11項(xiàng)NLP任務(wù)處理的紀(jì)錄。

          這11項(xiàng)NLP任務(wù)處理的紀(jì)錄涵蓋了如下4種場(chǎng)景,這4種場(chǎng)景也是BERT模型所適用的主要場(chǎng)景。

          • 場(chǎng)景一:處理類似閱讀理解的任務(wù)。

          • 場(chǎng)景二:處理句子與段落間的匹配任務(wù)。

          • 場(chǎng)景三:提取句子深層語(yǔ)義特征的任務(wù)。

          • 場(chǎng)景四:基于句子或段落級(jí)別的短文本(長(zhǎng)度小于512個(gè)子詞的文本)處理任務(wù)。

          目前,BERT模型已成為語(yǔ)言分析和挖掘,以及機(jī)器學(xué)習(xí)等領(lǐng)域中最流行的模型。它具有易于使用、穩(wěn)定性強(qiáng)等諸多優(yōu)點(diǎn)。

          02
          BERT模型與BERTology系列模型

          BERT模型的出色表現(xiàn),引起了業(yè)界廣泛而強(qiáng)烈的反響。BERT模型的橫空出世,仿佛是打開(kāi)了處理NLP任務(wù)的“潘多拉魔盒”。隨后涌現(xiàn)了一大批類似于BERT模型的預(yù)訓(xùn)練模型,它們被統(tǒng)稱為BERTology系列模型。例如:

          • 引入了BERT模型中的雙向上下文信息的廣義自回歸模型——XLNet模型;

          • 引入了BERT模型訓(xùn)練方式和目標(biāo)的RoBERTa和SpanBERT模型;

          • 結(jié)合了多任務(wù)及知識(shí)蒸餾(Knowledge Distillation)、強(qiáng)化BERT模型功能的MT-DNN模型。

          BERTology系列模型一般都基于BERT模型改造而來(lái),代碼量不大,邏輯也不復(fù)雜。

          但是,其極大規(guī)模的數(shù)據(jù)量、訓(xùn)練強(qiáng)度和模型容量,以及利用無(wú)監(jiān)督模型的訓(xùn)練方式,使得其能力空前強(qiáng)大,在某些領(lǐng)域甚至已超過(guò)人類。但在日常中,常用BERT模型來(lái)代指本來(lái)的BERT模型和BERTology系列模型。這里的的BERT模型就是這樣一種泛指。

          例如,在不同類型的文章(包括散文、小說(shuō)、新聞、科技文章等)數(shù)據(jù)集上訓(xùn)練出的GPT-3模型,可以寫出不同風(fēng)格的文章。它可以寫出詩(shī)集、散文,甚至“金庸風(fēng)格”的小說(shuō)、新聞稿等。

          03
          學(xué)好自然語(yǔ)言處理的4件套

          要想弄懂、學(xué)透BERT模型,需要腳踏實(shí)地從BERT模型的技術(shù)體系來(lái)了解其內(nèi)部所涉及的技術(shù)棧,再根據(jù)技術(shù)棧中的內(nèi)容一步步地進(jìn)行了解和掌握。

          BERT模型是由“Transformer模型中的編碼器(Encoder)+雙向(正向序列和反向序列)結(jié)構(gòu)”組成的。因此,一定要熟練掌握Transformer模型的Encoder。這屬于神經(jīng)網(wǎng)絡(luò)部分的知識(shí)。

          另外,BERT模型的主要?jiǎng)?chuàng)新點(diǎn)是其獨(dú)特的預(yù)訓(xùn)練方法,這種方法使用Masked Language Model和Next Sentence Prediction兩種方法分別捕捉“詞語(yǔ)”和“句子”級(jí)別的表示。這部分知識(shí)涵蓋深度學(xué)習(xí)的訓(xùn)練模型知識(shí)和NLP領(lǐng)域的部分知識(shí)。

          學(xué)好自然語(yǔ)言處理需要“4件套”:

          • 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí)。

          • NLP的基礎(chǔ)知識(shí)。

          • 編程框架的使用。

          • BERT模型的原理及應(yīng)用。

          其中,前3部分是基礎(chǔ),這部分內(nèi)容可以幫助讀者“吃透”BERT模型;最后1部分是升華,這部分內(nèi)容可以幫助讀者開(kāi)闊思路、增長(zhǎng)見(jiàn)識(shí),使讀者能夠真正駕馭BERT模型,活學(xué)活用,完成NLP任務(wù)。

          04
          學(xué)好自然語(yǔ)言處理的前提條件

          學(xué)習(xí)本書,要求讀者具有Python基礎(chǔ),并熟悉Matplotlib和Numpy庫(kù)的使用。

          讀者不用擔(dān)心自己數(shù)學(xué)基礎(chǔ)不足、不懂神經(jīng)網(wǎng)絡(luò)原理等問(wèn)題,PyTorch已經(jīng)將這些底層算法統(tǒng)統(tǒng)封裝成了高級(jí)接口,用戶可以非常方便、快捷地利用它們進(jìn)行開(kāi)發(fā)。本書重點(diǎn)介紹如何快速使用PyTorch的這些接口來(lái)實(shí)現(xiàn)深度學(xué)習(xí)模型。

          05
          自然語(yǔ)言處理的技術(shù)趨勢(shì)

          早先人們常使用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)處理自然語(yǔ)言任務(wù),但Transformer模型的誕生改變了這個(gè)情況。

          Transformer模型使用的是全新的注意力機(jī)制,達(dá)到了比卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)更好的效果。而BERT模型則是在Transformer模型基礎(chǔ)上的又一次優(yōu)化,直接使NLP模型的性能達(dá)到前所未有的高度。

          BERT模型已經(jīng)成為自然語(yǔ)言處理的主流技術(shù)。

          BERT模型是一種無(wú)監(jiān)督的預(yù)訓(xùn)練語(yǔ)言模型。人們以BERT模型為基礎(chǔ),對(duì)其進(jìn)行了結(jié)構(gòu)調(diào)整、性能優(yōu)化、再訓(xùn)練等,產(chǎn)生了許多在專業(yè)領(lǐng)域中表現(xiàn)更佳的模型。這些模型被統(tǒng)一稱為BERTology系列模型。

          BERTology系列模型在NLP的多種場(chǎng)景中都發(fā)揮了驚人的效果。從某種角度講,BERTology系列模型所涉及的技術(shù)是當(dāng)今NLP領(lǐng)域的主流技術(shù)。

          1. 基于超大規(guī)模的高精度模型

          從BERT模型到RoBERTa模型、GPT模型,再到GPT-2模型、GPT-3模型,模型效果的提升已經(jīng)證明了——用更多的數(shù)據(jù)可以“跑”出更強(qiáng)大、更通用的預(yù)訓(xùn)練模型。

          近年來(lái),英偉達(dá)、谷歌、Open-AI相繼放出的“巨無(wú)霸”模型有MegatronLM(含83億個(gè)參數(shù))、T5(含110億個(gè)參數(shù))、GPT-3(含1500億個(gè)參數(shù))。

          當(dāng)然,“巨無(wú)霸”模型的能力并不僅僅停留在精度上,它們甚至可以通過(guò)語(yǔ)義交互的方式直接完成NLP任務(wù)。

          2. 基于超小規(guī)模的高精度模型

          快速發(fā)展的深層神經(jīng)網(wǎng)絡(luò),在過(guò)去的十年中徹底改變了NLP領(lǐng)域。

          另外,諸如保護(hù)用戶隱私、消除網(wǎng)絡(luò)延遲、啟用離線功能、降低運(yùn)營(yíng)成本等問(wèn)題,要求模型能運(yùn)行在設(shè)備終端,而不是數(shù)據(jù)中心。這種需求推動(dòng)了小規(guī)模NLP模型的迅速發(fā)展。

          BERT模型逐漸在往“大規(guī)?!焙汀靶∫?guī)?!眱蓚€(gè)極端發(fā)展。如何用盡可能少的參數(shù)取得和“大模型”接近的效果,同時(shí)讓訓(xùn)練速度和預(yù)測(cè)速度翻倍,是一個(gè)很實(shí)際、很有價(jià)值的課題。

          華為諾亞方舟實(shí)驗(yàn)室發(fā)布的TinyBERT模型、北京大學(xué)的FastBERT模型,在這方面都取得了矚目的成績(jī)。

          3. 基于小樣本訓(xùn)練的模型

          在實(shí)際業(yè)務(wù)場(chǎng)景中,中小AI企業(yè)往往容易出現(xiàn)數(shù)據(jù)量不足的問(wèn)題。

          例如,用戶需要訂制一個(gè)客服機(jī)器人,但只有100個(gè)標(biāo)準(zhǔn)問(wèn)題,這么小的數(shù)據(jù)集不足以支撐模型的訓(xùn)練。

          對(duì)于這類問(wèn)題,除花費(fèi)高成本找標(biāo)注團(tuán)隊(duì)制造數(shù)據(jù)外,還可以通過(guò)遷移學(xué)習(xí)、小樣本學(xué)習(xí)的方法來(lái)讓模型通過(guò)少量樣本進(jìn)行學(xué)習(xí),從而獲得較強(qiáng)的泛化能力。這些學(xué)習(xí)已經(jīng)成為近年的研究熱點(diǎn)之一。

          本內(nèi)容摘自《基于BERT模型的自然語(yǔ)言處理實(shí)戰(zhàn)》,想了解更多關(guān)于BERT模型的內(nèi)容,歡迎閱讀此書。



          ▊《基于BERT模型的自然語(yǔ)言處理實(shí)戰(zhàn)

          李金洪 


          • 全彩印刷

          • 清晰的學(xué)習(xí)主線


          通過(guò)本書,讀者可以熟練地在PyTorch框架中開(kāi)發(fā)并訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,快速地使用BERT模型完成各種主流的自然語(yǔ)言處理任務(wù),獨(dú)立地設(shè)計(jì)并訓(xùn)練出針對(duì)特定需求的BERT模型,輕松地將BERT模型封裝成Web服務(wù)部署到云端。

          本書結(jié)構(gòu)清晰、案例豐富、通俗易懂、實(shí)用性強(qiáng),適合對(duì)自然語(yǔ)言處理、BERT模型感興趣的讀者作為自學(xué)教程。另外,本書也適合社會(huì)培訓(xùn)學(xué)校作為培訓(xùn)教材,還適合計(jì)算機(jī)相關(guān)專業(yè)作為教學(xué)參考書。

          (京東滿100減50,快快搶購(gòu)吧?。?/span>


          推薦閱讀

          (點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)

          神經(jīng)網(wǎng)絡(luò)入門

          統(tǒng) 計(jì) 學(xué) 無(wú) 用 了 ?

          我的深度學(xué)習(xí)之路

          【機(jī)器學(xué)習(xí)】Bagging思想!

          6行代碼!用Python將PDF轉(zhuǎn)為word

          Tensorflow是系統(tǒng)派,Pytorch是算法派

          老鐵,三連支持一下,好嗎?↓↓↓

          瀏覽 27
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美成人A片高清免费看 | 午夜成人福利片 | 天天做天天干 | 无码视频第一页 | 丁香五月欧美 |