<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          我與NLP的故事

          共 4050字,需瀏覽 9分鐘

           ·

          2021-05-13 06:05

          ??趁著自己還有點(diǎn)記憶,趁著自己還有點(diǎn)想法,想寫一篇文章,講述我與NLP的故事。這是一篇遲到兩周的文章。
          ??兩周前,在安徽蕪湖的一幢樓中,是二樓,我記得當(dāng)時(shí)我正和同事商量實(shí)體抽取的一些細(xì)節(jié),突然接到攜程HR的電話。說(shuō)是突然,其實(shí)我期待已久,因?yàn)槠綍r(shí)我的手機(jī)都是靜音,那天特地開(kāi)了聲音和振動(dòng)。電話那頭,HR向我介紹了offer的各種細(xì)節(jié),我現(xiàn)在不記得很多了,只記得那時(shí)天色昏暗,我的頭貼著手機(jī)想聽(tīng)得更清楚一點(diǎn),我的眼睛望著窗外的石楠樹(shù),內(nèi)心無(wú)比狂喜,但她聽(tīng)到的只有我嗯嗯點(diǎn)頭的聲音。
          ??晚上回到酒店,望著窗外的高速公路,我對(duì)我的同事說(shuō),我感覺(jué)像在做夢(mèng),兩年多來(lái)一直在追求而得不到的東西,今晚竟然變?yōu)楝F(xiàn)實(shí)了。公路上燈光耀眼,車流不息,我躺在床上一夜都沒(méi)睡好。
          ??第二天我們返回上海,我在公司靜靜等待offer,下午兩點(diǎn)多郵箱里收到offer,我頓時(shí)感覺(jué)如釋重負(fù)。當(dāng)天晚上,我就和我的領(lǐng)導(dǎo)提出了離職的想法。領(lǐng)導(dǎo)有點(diǎn)不太能接受,感覺(jué)我的離職有點(diǎn)兒突然,但是他不知道的是,我等這一刻,等待了兩年多,不是心血來(lái)潮,而是期待良久。
          ??記得我剛參加工作的時(shí)候,什么都不會(huì),只懂一點(diǎn)點(diǎn)Python。那時(shí)在銀行,也沒(méi)有太多項(xiàng)目可做,倒是接觸了不少新鮮名詞,比如爬蟲,數(shù)據(jù)分析,機(jī)器學(xué)習(xí),深度學(xué)習(xí),Hadoop,SpringBoot之類的。銀行里比較閑,所以我有空閑時(shí)間學(xué)習(xí),當(dāng)時(shí)基本把我聽(tīng)到過(guò)的技術(shù)都學(xué)了一遍,雖然并不精通。
          ??我以為至少在銀行能穩(wěn)定一段時(shí)間,但,當(dāng)時(shí)銀行出了一些變故,年前部門人心惶惶,不少人想著離職。我們小組一開(kāi)始有8個(gè)人,年后走了6個(gè),我從沒(méi)見(jiàn)過(guò)這種場(chǎng)面,當(dāng)時(shí)慌亂無(wú)神。組長(zhǎng)她工作十年多了,勸我早點(diǎn)開(kāi)始找工作。我當(dāng)時(shí)有心理準(zhǔn)備,覺(jué)得不管再怎么難,都要找工作離開(kāi)這里。
          ??沒(méi)想到我一找就找了半年多,那時(shí)我想著自己學(xué)歷還不錯(cuò),能力也還行,但找工作總是不對(duì)勁,無(wú)數(shù)次被拒絕,無(wú)數(shù)次被問(wèn)倒,無(wú)次數(shù)懷疑自己。那段時(shí)間我時(shí)不時(shí)請(qǐng)假出去面試,去很遠(yuǎn)的地方,坐很久的地鐵,有時(shí)都顧不上吃飯,一心只想著要是有公司要我就好了。也是在那段時(shí)間,我開(kāi)始接觸深度學(xué)習(xí),剛開(kāi)始碰圖像,學(xué)習(xí)OpenCV,破解驗(yàn)證碼,感覺(jué)CV挺有趣。無(wú)意間開(kāi)始接觸到NLP,初學(xué)并無(wú)太多興趣,覺(jué)得文字到底枯燥,直至一本書出現(xiàn)在我的世界:《Text Analytics with Python:A Practical Real-World Approach to Gaining Actionable Insights from your Data》。

          Text Analytics with Python

          我對(duì)這本書印象很深,它像是我在NLP領(lǐng)域的啟蒙書。雖然時(shí)至今日我都沒(méi)有完整地把它看完,但它確實(shí)讓我了解到了NLP的基本概念,比如分詞,詞性分析,命名實(shí)體識(shí)別,文本分類,語(yǔ)義相似度等。當(dāng)時(shí)我還寫過(guò)不少文章,其中NLP入門(四)命名實(shí)體識(shí)別(NER)這篇文章讓我印象很深,這是第一次,NLP讓我真實(shí)地感受到模型的魅力,模型與文字互相結(jié)合所散發(fā)出的神奇力量,后來(lái),我還自己用BiLSTM+CRF模型實(shí)現(xiàn)了命名實(shí)體識(shí)別,這無(wú)疑加強(qiáng)了我對(duì)NLP的好感。
          ??19年元旦,我從銀行離職,當(dāng)時(shí)有百度、拼多多的offer,但都是數(shù)據(jù)分析崗位。我拒絕了大廠的誘惑,選擇了一家小公司DG,因?yàn)樗o我提供了算法工程師的崗位。之所以選擇算法這個(gè)崗位,是因?yàn)楫?dāng)時(shí)有一個(gè)模型已經(jīng)橫空出世,橫掃NLP領(lǐng)域,直至今日仍被奉為圭臬:BERT。之前我們都是用傳統(tǒng)的深度學(xué)習(xí)模型去實(shí)現(xiàn)NLP任務(wù),效果一般都很有限,除非樣本量很大,而B(niǎo)ERT的出現(xiàn)打破了一切陳舊的觀念,很快就占據(jù)了統(tǒng)治地位。
          ??我滿懷欣喜地來(lái)到DG公司,原以為我會(huì)去接觸NLP,了解BERT,但事與愿違。后來(lái)我才知道,我剛進(jìn)公司,做的是搜索這塊,ElasticSearch才是圣經(jīng),我只能做些搜索相關(guān)工作。偶然的機(jī)會(huì),我因?yàn)楣镜臉I(yè)務(wù)需要才接觸NLP,做事件抽取這塊,但我一直找不到正確的道路,沒(méi)有人帶著我,引導(dǎo)我,我自己到處碰壁,也無(wú)法找到學(xué)習(xí)BERT的正確途徑。那時(shí)候,預(yù)訓(xùn)練模型(PLM)領(lǐng)域人才輩出,BERT已為陳?ài)E,RoBERTa、XLNet、GPT2、ALBERT等新貴崛起。遺憾的是,我一次次與這些模型失之交臂,我望著它們崛起的身影,想瞻仰它們的英姿,無(wú)奈緣慳一面,始終不得其法,我只是知道它們的存在,這些模型非常厲害,僅此而已。
          那些神一樣存在的預(yù)訓(xùn)練模型

          ??我以為我自己與NLP無(wú)緣,后來(lái)因?yàn)橥掠袀€(gè)query分類的任務(wù)才讓我重拾文本分類,他對(duì)模型效果的驚訝也讓我重拾對(duì)NLP的興趣。后來(lái),他找了xiaohan博士的Bert as service,這是使用BERT,借助消息隊(duì)列,對(duì)文本進(jìn)行特征向量提取的工具,這算是我第一次接觸BERT。后來(lái)我經(jīng)常用這個(gè)工具,對(duì)文本提取向量特征,作為Embedding,后接傳統(tǒng)深度學(xué)習(xí)模型實(shí)現(xiàn)基本NLP任務(wù),但這不是BERT的最佳實(shí)踐。我老是聽(tīng)說(shuō)finetune,但卻一直不解其意。Github上有個(gè)bertNER項(xiàng)目,算是我第一次接觸BERT的finetune做法,但我一直沒(méi)有深入了解過(guò)其中的代碼,只是用。說(shuō)白了,我當(dāng)時(shí)腦海中根本沒(méi)有就這樣的概念要怎樣去使用BERT,似乎BERT就在身旁,但又遠(yuǎn)在天邊,這讓我很痛苦。
          ??在DG的經(jīng)歷無(wú)疑是讓我極其失望的,我浪費(fèi)了一年半的時(shí)間,放棄了大廠的機(jī)會(huì),想學(xué)習(xí)NLP,但卻收獲甚微,在PLM領(lǐng)域一事無(wú)成,有的只是對(duì)公司的失望和對(duì)出差的厭惡。唯一值得慶幸的是,當(dāng)時(shí)我們組有個(gè)西交的小伙伴,也是中途轉(zhuǎn)NLP,他對(duì)NLP的理解讓我欽佩,他算是那種標(biāo)桿人物,也是我后面努力的方向。
          ??20年上半年,恰逢疫情,想換工作,而我對(duì)NLP的理解也有限,在選擇不多、匆匆忙忙的情況下來(lái)到了另一家小公司PD。當(dāng)時(shí)真的是有一種置之死地而后生的感覺(jué),想著不能做NLP索性就自暴自棄了。
          ??果然,我再一次后悔,小公司的管理,方方面面都超出了我的想象,我每天只祈求能學(xué)習(xí)點(diǎn)NLP相關(guān)的知識(shí),但公司事多,項(xiàng)目很爛,同事也不怎么nice,讓我靜不下心來(lái)。
          ??我當(dāng)時(shí)拿著bertNER,就想拿這個(gè)模型混日子,但我又不甘心。自學(xué)的道路是痛苦的,痛苦之處在于你根本沒(méi)有方向,無(wú)從下手,好像每一個(gè)地方都可以下手,但又沒(méi)有一個(gè)地方可以下手;你無(wú)數(shù)次碰壁,無(wú)數(shù)次失望,像是在走迷宮,但永遠(yuǎn)也看不到出口在哪。那段時(shí)間,我又想到過(guò)放棄。
          ??后來(lái)我當(dāng)了PD的NLP組的小組長(zhǎng),我覺(jué)得我需要有點(diǎn)擔(dān)當(dāng),正好當(dāng)時(shí)事情不多,我覺(jué)得是時(shí)候積累一些自己寫的模型了。那時(shí)我看了蘇神的文章,感覺(jué)keras-bert能輕松實(shí)現(xiàn)BERT的finetune用法,那一刻有種頓悟的感覺(jué)。在那一個(gè)月,我像發(fā)瘋似的,一個(gè)月之內(nèi)寫了12個(gè)模型,用keras-bert實(shí)現(xiàn)了命名實(shí)體識(shí)別、文本多分類、文本多標(biāo)簽分類、完形填空、抽取式閱讀理解等任務(wù),還用keras-bert實(shí)現(xiàn)了ALBERT調(diào)用。那段時(shí)間,GPU很少有空閑的時(shí)間,而我對(duì)NLP的感覺(jué)也在慢慢變好。后來(lái),我又學(xué)習(xí)了PyTorch,接觸到了HuggingFace的transformers這個(gè)神奇的工具,感覺(jué)到了Torch的強(qiáng)大與靈活。

          HuggingFace

          ??后來(lái),我終于學(xué)會(huì)了對(duì)PLM進(jìn)行finetune,實(shí)現(xiàn)一些NLP基本任務(wù)算是小菜一碟了。但漸漸地,我感覺(jué)好像沒(méi)有了進(jìn)步空間。在某一天的晚上,我嘗試了搜索了關(guān)系分類的論文,找到一篇論文:Enriching Pre-trained Language Model with Entity Information for Relation Classification,我把R-BERT用在人物關(guān)系分類上,取得了很好的效果,參考文章:NLP(四十二)人物關(guān)系分類的再次嘗試。我嘗試著用一周時(shí)間使用keras-bert實(shí)現(xiàn)R-BERT模型,實(shí)際上三天就完成了,那種復(fù)現(xiàn)模型的感覺(jué)真的讓我久久難以忘記。
          ??也是從那以后,我開(kāi)始閱讀NLP方向的論文,有些論文讀起來(lái)枯燥無(wú)味,有些論文卻讀起來(lái)津津有味,直到去攜程面試前一天晚上,我還在讀Transformer的論文。慢慢地我感覺(jué)只有不斷地讀論文,才會(huì)有新的收獲,而僅僅只是用預(yù)訓(xùn)練模型無(wú)法體會(huì)這些模型的神奇之處。
          ??兩年多了,在NLP這條道路上走得很辛苦,很多時(shí)候想過(guò)放棄,但慶幸的是我堅(jiān)持下來(lái)了。記得在大興的時(shí)候,有個(gè)領(lǐng)導(dǎo)跟我說(shuō),NLP這條路比較窄,以后可能不好走,我當(dāng)時(shí)的回答是,我會(huì)堅(jiān)持的。是的,我堅(jiān)持下來(lái)了,而且NLP這條路好像也沒(méi)有那么窄。
          ??二面攜程的時(shí)候,總監(jiān)問(wèn)我為什么做NLP。我說(shuō),我是學(xué)數(shù)學(xué)的,我希望能做算法,NLP很吸引我,我想繼續(xù)做NLP,最好能把自己的一些想法加在里面,有一點(diǎn)兒自己的成果。
          ??是的,我的想法很簡(jiǎn)單,也很難做到。但是有夢(mèng)想總歸是件好事情。
          ??兩年前,在銀行的電梯里,我和組長(zhǎng)一起下去吃飯,她問(wèn)我百度的offer拿到了嗎,我點(diǎn)頭。她說(shuō)我最好去百度,大廠有保障。我說(shuō)我可能會(huì)去小公司做算法,她搖搖頭說(shuō)小公司管理不太好,你會(huì)吃虧的。事實(shí)驗(yàn)證了她的想法。但我組長(zhǎng)最后還跟我說(shuō)了一句,去小公司也可以,以后上岸比較難,不過(guò)你還年輕,有機(jī)會(huì)上岸的。
          ??這兩年多,我一直在想著這番話。我想我現(xiàn)在終于上岸了,那就努力工作吧,好好學(xué)習(xí)吧,不要辜負(fù)了自己這兩年多跌跌撞撞的痛苦經(jīng)歷。
          ??這是我與NLP的故事,也許簡(jiǎn)單,也許曲折,也許勵(lì)志,也許不值一提,但在我個(gè)人身上,這是我人生的一段經(jīng)歷,如此而已,我覺(jué)得可以一寫,故記錄于此。
          ??2021年5月10日夜于上海浦東,此日酷暑難當(dāng)~



          瀏覽 46
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操B久久久 | 91一区二区高清 | 三级片网站av | 免费在线观看视频无码 | 青青草手机视频 |