<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NLP算法工程師的日常以及核心競爭力

          共 2191字,需瀏覽 5分鐘

           ·

          2021-04-02 23:25

          談一下關(guān)于自己對算法工程師核心競爭力的理解
          先簡單自我介紹一下,我是DASOU,任職在一家社交公司,做NLP算法工程師,主要做文本分類,序列標(biāo)注,問答匹配方向的工作,也做過搜索/推薦方向的需求。

          工作快有一年半的時(shí)間了,在這一年半的時(shí)間里,我在工作的同時(shí),一直都在思索,究竟什么才是算法工程師的核心競爭力,怎樣才能避免剛?cè)胄芯筒煌1还噍數(shù)哪莻€(gè)35歲中年危機(jī)。

          我看過很多別人的經(jīng)驗(yàn)總結(jié),結(jié)合我自己的工作經(jīng)歷,慢慢有了一點(diǎn)自己的感悟,想要分享出來,希望對大家能有幫助。

          我用一句大白話說一下我自己對核心競爭力的總結(jié)就是:不同的場景,挑選合適的方法,獲得最大的效果。

          這句話很淺顯,但是想要做到絕非沒那么簡單!!這需要我們長年累月的經(jīng)驗(yàn)積累和總結(jié)。

          接下來,我會(huì)模擬一個(gè)工作場景,講講究竟核心競爭力體現(xiàn)在哪些方面,以及怎么才能不斷提升自己!!

          0. 背景

          假如現(xiàn)在接到了一個(gè)新的業(yè)務(wù)方的需求,你第一步要做什么?

          打開冰箱,把大象...啊,不對

          1. 需求定性

          首先第一步,我們需要對這個(gè)需求定性,定方向,它是屬于文本分類任務(wù)?命名體識別?還是機(jī)器翻譯?不同的方向我們使用的方法和側(cè)重點(diǎn)就會(huì)不一樣。當(dāng)然,很多時(shí)候一個(gè)需求不僅僅是一個(gè)任務(wù),多數(shù)情況下是多個(gè)任務(wù)的結(jié)合,這個(gè)暫且不論。

          2. 調(diào)研

          好的,現(xiàn)在定好了方向,比如是關(guān)于一個(gè)文本分類的任務(wù),接下來是要做調(diào)研。

          調(diào)研主要是分為兩個(gè)部分:數(shù)據(jù)和模型。

          調(diào)研數(shù)據(jù):對于一個(gè)算法工程師,處理數(shù)據(jù)絕對是占據(jù)一天絕大部分時(shí)間,很多人調(diào)侃自己是 SQL BOY 。但是我想要說的,數(shù)據(jù)決定模型的上限,這句話絕對是真理。只有真正的了解我們的數(shù)據(jù),才能在接下里的任務(wù)中作出好的結(jié)果。

          你需要知道你的數(shù)據(jù)量級大概是多少;不規(guī)范的數(shù)據(jù)多不多;需不需要做數(shù)據(jù)增強(qiáng),針對當(dāng)前這份數(shù)據(jù)哪種數(shù)據(jù)增強(qiáng)技術(shù)可能效果會(huì)不錯(cuò);有哪些特征可能組合起來會(huì)有用等等,這些都需要在調(diào)研數(shù)據(jù)的時(shí)候值得我們仔細(xì)思考。

          這里插一句,如果數(shù)據(jù)很不規(guī)范,在這個(gè)時(shí)候你就要思考是從模型下手還是從數(shù)據(jù)本身下手,各自有什么合適的方法。比如你可以看看這些不規(guī)范的數(shù)據(jù)究竟有什么特點(diǎn)可以利用。比如是不是可以不分詞,而只是使用基于字的模型,等等吧。

          在數(shù)據(jù)處理這個(gè)過程中,因?yàn)楝F(xiàn)在很多公司數(shù)據(jù)都存在 Hive 中,所以會(huì)用到 MapReduce,Hive,Spark 等等大數(shù)據(jù)開發(fā)工具,掌握這些工具絕對可以讓你輕松搞定數(shù)據(jù)處理。

          調(diào)研模型:宗旨就是根據(jù)不同的要求,使用合適的模型。你需要綜合各方面的條件作出決策。如果業(yè)務(wù)方需要高準(zhǔn)確度,選擇什么模型能滿足要求。如果業(yè)務(wù)方需要高響應(yīng)速度,選擇哪種模型合適。針對當(dāng)前這種數(shù)據(jù),哪種模型可能效果會(huì)不錯(cuò)。

          還是以我們這個(gè)文本分類這個(gè)需求為例,如果看中速度,F(xiàn)astText會(huì)不會(huì)更好一點(diǎn),或者TextCNN怎么樣?如果要求精度,那么Bert可以嗎?或者寬松一點(diǎn) Albert怎么樣,F(xiàn)astBert怎么樣?

          在這個(gè)過程中,你需要去讀大量的論文和博客,看看別人的經(jīng)驗(yàn)和總結(jié),幫助自己作出最終的決定。

          3. 訓(xùn)練/優(yōu)化模型

          模型的訓(xùn)練和優(yōu)化,一般來說不會(huì)占據(jù)的太多的時(shí)間。有句話忘了在哪里看到的了,說是處理數(shù)據(jù)花了兩周的時(shí)間,訓(xùn)練模型花了兩個(gè)小時(shí)。聽起來可能有點(diǎn)夸張,但是是這么個(gè)意思。在這個(gè)過程中,你的主要工作就是需要使用代碼實(shí)現(xiàn)模型,去思考怎么樣才能更高效的運(yùn)行這個(gè)模型,需要去思考怎樣才能獲取更好結(jié)果?

          比如說,使用 GPU 進(jìn)行訓(xùn)練模型,你需要熟悉模型/數(shù)據(jù)并行化的知識。比如說,針對特定任務(wù),修改損失函數(shù),修改優(yōu)化函數(shù),等等吧。

          4. 部署上線

          我們需要為開發(fā)人員提供接口,從而可以處理數(shù)據(jù)返回結(jié)果。這個(gè)時(shí)候,你就要思考你的接口響應(yīng)速度怎么樣?做多可以多少并發(fā)?針對這種情況,自己做一個(gè)簡單的壓測就可以。一般來說,你需要掌握 grpc,kafka,flask,nginx 等常用工具。當(dāng)然,這些你不需要精通,如果需求方對接口要求很高的話,你可以使用一些成熟的開源框架就可以,所以,不用太慌。

          好了,大概就是這樣,整個(gè)流程我們有著極強(qiáng)的耐心,而且要不停的從過程中積累經(jīng)驗(yàn)。

          5. 總結(jié)

          總結(jié)來說,要想提高自己的核心競爭力,做到兩個(gè)方面:算法+工程 。

          對于算法,要深入底層,把手弄臟。算法模型重點(diǎn)在質(zhì)量,而不是數(shù)量。既然要搞一個(gè)模型,就要徹底把它搞清楚,要把它掰開了揉碎了琢磨,不要似是而非。

          對于工程,你需要有大數(shù)據(jù)開發(fā)能力和模型訓(xùn)練部署能力。

          兩個(gè)都要抓,兩手都要硬,才能無往不利。其實(shí),在這方面,我做的也很不好,人都是有惰性的,大道理說起來一套套的,做起來就是個(gè)行動(dòng)的矮子...

          然后我痛定思痛,想逼自己一把,于是幾天前就建了兩個(gè)NLP倉庫。

          一個(gè)是關(guān)于NLP各種面試題的倉庫(更新,現(xiàn)在1.7Kstar了)

          https://github.com/DA-southampton/NLP_ability

          一個(gè)倉庫是關(guān)于各種模型是如何在各大公司實(shí)戰(zhàn)落地的(更新,現(xiàn)在900+star。地址在這里:

          https://github.com/DA-southampton/Tech_Aarticle

          同時(shí)歡迎來點(diǎn)擊下方關(guān)注我的公眾號,技術(shù)文章多多,干貨滿滿。


          所以感興趣的朋友可以去看看,如果能給大家?guī)硪稽c(diǎn)幫助,就很開心了,我會(huì)持續(xù)更新,爭取每篇文章都帶有新的思考,而不是新瓶裝舊酒。
          瀏覽 69
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本在线视频二区 | 久操国产精品 | 色中色综合网 | 啊啊啊无码 | 97伊人超碰 |