經(jīng)驗(yàn)談 | 算法工程師讀論文的思路
讀論文方面的經(jīng)驗(yàn),我應(yīng)該不是第一次寫(xiě)了,之前有關(guān)研究生的經(jīng)驗(yàn)里多少提過(guò)一些(我從研究生生活中得到的經(jīng)驗(yàn),心法利器[36] | 開(kāi)學(xué)季:我給研究生的建議),但是我們畢業(yè)后,走向算法工程師的工位后,持續(xù)學(xué)習(xí)的口號(hào)卻仍舊持續(xù)督促我們,讀論文是算法工程師非常重要的學(xué)習(xí)方法,甚至有的工作就需要我們持續(xù)閱讀,這里給大家介紹一下我的讀論文思路吧。
為什么要讀論文
首先要解決的是為什么的問(wèn)題,我們常說(shuō)要經(jīng)常讀論文,那是為什么呢?
新技術(shù)新思路的吸納。持續(xù)用著老方法,肯定不行,我們需要更多更強(qiáng)更好用的方法。 技術(shù)儲(chǔ)備。對(duì)未來(lái)需要用到的技術(shù),提前學(xué)習(xí)儲(chǔ)備,日后能手到擒來(lái)。 專項(xiàng)的技術(shù)調(diào)研和技術(shù)方案設(shè)計(jì)。在針對(duì)一個(gè)問(wèn)題思考解決方案的時(shí)候,一個(gè)人想的見(jiàn)的當(dāng)然會(huì)受到局限,此時(shí)進(jìn)行專項(xiàng)調(diào)研更有利于對(duì)解決問(wèn)題提供可靠支持。 個(gè)人技術(shù)成長(zhǎng)。技術(shù)是通過(guò)人來(lái)實(shí)現(xiàn)的,我們只有保證自己手里的技術(shù)持續(xù)有優(yōu)勢(shì),才具有不可替代性,這也要求我們學(xué)習(xí),持續(xù)學(xué)習(xí)。 論文所代表的的是一個(gè)階段的前沿探索工作,和我們個(gè)人成長(zhǎng)的需要非常匹配。
綜上,我們需要持續(xù)讀論文。
讀論文的思路
論文的獲取和選擇
我們這些混跡NLP的,日常論文的來(lái)源主要是arxiv、頂會(huì)和公眾號(hào)等媒體,我們能從這些渠道獲取比較新的文章,尤其是前兩者,而且一定程度的同行審核也能讓論文質(zhì)量不錯(cuò),加上媒體的推薦,我們看起來(lái)其實(shí)效率和質(zhì)量都挺高的。所以,這里大家就別說(shuō)找不到論文讀了哈。
至于選擇,這個(gè)事是真的很薛定諤,你不看完完全無(wú)法評(píng)價(jià)論文,如果你比較著急的話,倒是有幾個(gè)篩選的方式可以讓你快速篩選到一些:
很多公眾號(hào)喜歡寫(xiě)解讀的。 帶有代碼的,或者滴啊有第三方代碼的。 摘要比較適合自己的,論文再怎么樣都可以放翻譯軟件里看看摘要哈。
這里要補(bǔ)充一點(diǎn),火的論文,有的時(shí)候不見(jiàn)得就是好的,有些論文不火,也不見(jiàn)得不好。如果真的是想學(xué),其實(shí)還是要持續(xù)關(guān)注,而不能只相信推到你身上的。
論文閱讀技巧
讀論文是講求技巧的,如何高效閱讀獲取自己的消息是非常關(guān)鍵的,而高效則來(lái)源于對(duì)目標(biāo)的把握和執(zhí)行。
如果你是為了學(xué)習(xí)技術(shù)方案本身,其實(shí)直接看方法就夠了,學(xué)會(huì)方法本身其實(shí)難度并不是很高,甚至再輔以一些質(zhì)量較高的論文,其實(shí)看起來(lái)會(huì)很快。如果你是為了學(xué)習(xí),提升技術(shù)深度的,我其實(shí)挺建議大家深入學(xué)習(xí),不僅是要學(xué)習(xí)方法本身,最好能學(xué)會(huì)他內(nèi)部的思考和推理,例如這個(gè)方法是旨在解決什么問(wèn)題,有什么優(yōu)勢(shì),有什么缺點(diǎn),或者什么位置是作者避開(kāi)了的,未來(lái)我們可以考慮用這個(gè)方法或者是這個(gè)思路的時(shí)候,能根據(jù)他的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行合理的選擇和改良,而不再是生搬硬套硬懟。
如果你是希望深入了解整個(gè)研究現(xiàn)狀,優(yōu)先級(jí)更高的是在introduction,按照論文的行業(yè)規(guī)矩,是需要對(duì)現(xiàn)有工作進(jìn)行整理和評(píng)述的,這些整理起來(lái),其實(shí)就已經(jīng)能形成對(duì)整個(gè)研究現(xiàn)狀的把握了。在這里,你甚至可以逐步挖掘出,什么方法口碑比較好,什么樣的效果會(huì)比較好,逐步心里其實(shí)都有數(shù)。另外還有一個(gè)細(xì)節(jié),如果一個(gè)方法經(jīng)常被當(dāng)做靶子放在實(shí)驗(yàn)里,大概率其實(shí)就是一個(gè)比較靠譜的方法了,看看BERT都被多少論文處刑了。
閱讀和記錄
說(shuō)實(shí)話,讀論文不記錄就和掰棒子是一樣的,讀完了理解了就覺(jué)得自己學(xué)會(huì)了,成長(zhǎng)了,焦慮也解決了,其實(shí)后續(xù)干活好像也沒(méi)啥用,說(shuō)白了其實(shí)就是沒(méi)有進(jìn)行轉(zhuǎn)化,沒(méi)有轉(zhuǎn)化成自己的東西,意義不是很大,所以其實(shí)學(xué)習(xí)的本質(zhì)就是內(nèi)容更新。所以,閱讀和記錄其實(shí)非常重要,這點(diǎn)長(zhǎng)期做科研的應(yīng)該都有些感受。
記錄主要是需要什么內(nèi)容,我這里列舉一下:
論文基本信息,作者鏈接pdf等。 文章的關(guān)鍵詞,包括你記錄的關(guān)鍵詞。 文章主旨,主要方法思路。 核心優(yōu)點(diǎn)和缺點(diǎn)。
有這些記錄,后續(xù)我們需要找的時(shí)候也好找,而且其實(shí)寫(xiě)的過(guò)程也是一個(gè)思考總結(jié)的過(guò)程,這些總結(jié)會(huì)引導(dǎo)我們深入思考,而且在未來(lái)的方案設(shè)計(jì),方案選擇時(shí),依賴能保證自己的武器庫(kù)充足,另一方面自己在選擇的時(shí)候能有更多一句,降低試驗(yàn)成本。
讀論文的一些誤區(qū)
因?yàn)楹芏嘣颍嘈藕芏嗳硕挤浅=箲],希望通過(guò)自己的學(xué)習(xí)能有所提升,從而能有更好的薪資,讀論文就是其中一種方式,讀論文能從中積累大量的方法,從而能讓自己的技術(shù)得到提升,真的是很這樣嗎,我從和很多人的溝通中多少了解了一些讀論文的誤區(qū),大家一塊來(lái)看看:
首先是,讀論文就能提升。這個(gè)本身是假的,首先很多人讀論文沒(méi)到位,壓根沒(méi)讀懂,拋開(kāi)這不談,有些人是手里積累了大量方法,不說(shuō)如數(shù)家珍,至少能報(bào)個(gè)菜名,高端的脫口就來(lái),但是實(shí)際用起來(lái)就是這個(gè)不行換那個(gè),一個(gè)一個(gè)試,效果不行或,甚至有些上不了線,說(shuō)白了就是方法理解不全面,深度不足,淺嘗輒止,這樣遠(yuǎn)遠(yuǎn)不行。
其次,讀論文不是解決焦慮的藥,讀了就好就能漲工資。我們是希望能從論文中學(xué)到一些思路,而不是讀了焦慮就解決了,沒(méi)用,我們應(yīng)該奔著應(yīng)用、落地,無(wú)論是短期還是長(zhǎng)期,來(lái)進(jìn)行儲(chǔ)備,這種儲(chǔ)備是非常有必要的。
第三,盲目追新。隨著很多算法領(lǐng)域逐漸內(nèi)卷,很多論文的出現(xiàn)其實(shí)并沒(méi)有很多實(shí)用意義,成了帶點(diǎn)緩沖的刷榜,但作為一名算法工程師,我們要解決的是變化多樣的場(chǎng)景,數(shù)據(jù)場(chǎng)景工程場(chǎng)景,而不是固定不變的一個(gè)數(shù)據(jù)集看看準(zhǔn)招F1就完事的,我們還要考慮的東西很多,生搬硬套肯定是不合適的,我們應(yīng)該是理解這個(gè)方法,知道他的優(yōu)點(diǎn)缺點(diǎn)再進(jìn)行選擇,同時(shí)明白什么綜合效果好可以做baseline,有的只適合特定場(chǎng)景,有的則是只適合迭代優(yōu)化的嘗試。
第四,漫無(wú)目的的閱讀。沒(méi)有目的的閱讀,很難獲得收益,很難有提升,讀的很亂不成體系,后續(xù)也很難拿來(lái)用。所以還是建議先明確自己的學(xué)習(xí)目標(biāo),再來(lái)看自己要怎么學(xué)往哪個(gè)方向走,才會(huì)更好。
聊聊我自己
我自己其實(shí)是有讀論文的習(xí)慣的,但是隨著對(duì)業(yè)務(wù)的理解和工作經(jīng)驗(yàn),有了自己的一套方法,論文是讀的少了一些,主要原因還是覺(jué)得論文讀起來(lái)感覺(jué)很多東西好像都用不太到吧,而且基線方案用的其實(shí)也都還不錯(cuò),絕大部分業(yè)務(wù)的效果提升靠的是對(duì)問(wèn)題和方案足夠理解,針對(duì)性修改的到的,而不是論文里所謂的模型結(jié)構(gòu)、方案細(xì)節(jié)調(diào)整得到的。
但是,這不代表論文就不用讀了,讀還是要讀的,但是要讀重點(diǎn)的,和自己有關(guān)的,摘要多讀讀,確定合適后再展開(kāi)仔細(xì)看,并且時(shí)刻記得要記錄,讀多了真的很容易忘記,從而沒(méi)有起到預(yù)期的效果。
另一方面,除了日常的學(xué)習(xí),也會(huì)有一些專題,例如特定問(wèn)題的調(diào)研等,前段時(shí)間文本分類的調(diào)研就是這么來(lái)的,這么一輪下來(lái)收獲不小,根據(jù)需求大家也可以這么搞的。
