非正式版文獻閱讀指南:兩個月,刷了八千篇Arxiv,我發(fā)現(xiàn)……

從五月初到現(xiàn)在,大約刷了八千篇Arxiv之后,我發(fā)現(xiàn)我有毛病。

當然,這是讀論文上頭時的牢騷,不是真心話,只是說,我在Arxiv上投入的精力的努力,與我預計的收獲不成正比。
故事的起因是這樣的:
作為一個博一的萌新,學校和導師不會直接讓你上手科研,而是先上上課,確保來自不同學校的同學們能夠擁有相近的知識背景,互相認識認識。但是,當你的日常是上課的時候,看著學長學姐們學術討論,實驗跑得風生水起,人總是會慌的。
“天吶我已經(jīng)是一個成熟的研究生了,為什么每天還像本科生一樣課課課,我也要搞科研!“

然后想想除了課程和作業(yè)報告,似乎確實沒什么整塊的時間可以靜下心來研究,最可行的只有每天看看論文了。下定決心的時候是5月,由于各種課程的大作業(yè)開始陸續(xù)下發(fā),最終,實際能干的事情,就是通過RSS訂閱[1],開始遍歷Arxiv和一些領域相關Journal的論文。
在開始做這件事情的時候,我充滿了干勁和對論文的美好期許:
“每天能夠接觸到所有研究者最新的idea和發(fā)現(xiàn),我就是時代的弄潮兒!“
“那么多新發(fā)的方法,研究與研究之間都是相通的,可以把數(shù)理領域的前沿成果拿過來實現(xiàn)我們領域的研究問題,這效果絕對杠杠的!“
“順帶還可以練一練英語速讀能力,文科理科兩手都抓,太機智了!“
現(xiàn)在回頭望去,我就像個戲臺上的老將軍——渾身插滿了Flag。
Arxiv是北京時間每天上午九點更新,美國時間的周末不更新。我訂閱了CS領域下 人工智能 AI,機器學習 ML,計算機視覺 CV,信息理論 IT 四個方向的論文。平均每天加起來這些領域會更新150篇上下,周一會更多一點,因此我每周大約會接收到800~900篇論文推送。5月到7月中旬,加起來推送的總量必然有8k以上。
作為一個理智尚存的成年人,我采取的策略是首先速覽題目,對于研究相關的、或者看起來很有意思的文章,瞅一眼Abstract。如果Abstract挑不出毛病,再打開原文更詳細地閱讀。
綜述類文章:這類文章的價值是介紹一個方向的研究進展和前沿技術,并總結研究難點痛點,幾乎不具有創(chuàng)新性。寫得好的往往會直接投稿給期刊,因此在Arxiv上出現(xiàn)頻率不高。一篇好的綜述除了方法,更重要的是指出有待研究的空白。因此,對于只是羅列方法,總結不足的綜述我都不會進一步閱讀。 理論/觀點型文章:顯然,這類文章最重要的就是它的觀點和論證過程。一定要搞清楚文章的假設是哪些,限制在哪,如果不合理的話就不用看下去了。論證一般要么靠邏輯,要么靠公式推導,想很快把公式搞懂顯然是不現(xiàn)實的,但可以看看是基于哪些數(shù)學方法來決定是否值得細看。 方法型文章:這類文章的常見結果中包括“我們做到了xxx方面的SOTA”,但是,模型的評估指標有哪些,和什么樣的參考如何比較得出了這個SOTA,往往暗藏玄機。所以,看一眼模型構造,如果不是眼熟的縫合怪,再看一下實驗,實驗沒有太大問題,再瞄一眼結果,到底進步了多少,有沒有機理分析。這些全齊活了,文章的具體方法才可能具有可信度。
瀏覽方法是合理的,實施過程是痛苦的。我看到了五花八門標題美麗,開頭讓人心神蕩漾,實驗結果或者方法一言難盡的文章。還有些投稿,只描述了作者想達到的效果,方法剛寫了一小段,實驗還沒跑,導致我最終養(yǎng)成了開文章先看眼頁數(shù),免得被畫餅欺騙感情的好習慣。
這兩個月里,各式各樣的SOTA我見了上百篇,近期的few-shot,explanable AI,看起來都是研究熱點。然而最終,這大約8k篇的論文中,我挑挑揀揀,目前下載導入Mendeley打算好好研究的只有不到100篇。這樣做的時間成本是多少呢?
假設每天我穩(wěn)定讀了150個標題,這大約需要半個小時。 這150個標題中,有10篇能引起我的興趣,我花十五分鐘,過了一下它們的摘要。 作為一個新手,我對于摘要的判斷能力還不是很強,因此,這10篇文章中我需要仔細地閱讀5~8篇文章的intro,result,conclusion。這至少需要半個小時。 最后,由于我連續(xù)讀了這么久文章,我獎勵自己就地躺平一刻鐘。
所以,在Arxiv上刷文章,我每天需要花一個半小時左右,能夠獲取1~2篇可能有價值的文章。 而作為一個新手,我的研究嗅覺未必足夠靈敏,也就是說,在這些決定精讀的這些文章中,有50%以上的概率,在繼續(xù)閱讀1~2小時之后,我仍將一無所獲。而 如果利用這些時間有目的地定向搜索特定領域的文章, 參考文章的引用量,**我將更可能在同樣的時間內(nèi)了解更有價值的研究成果。
在Arxiv上,作為一個研究領域的新手面臨的問題是選擇太多了,難以甄別有效信息。最初我試圖從數(shù)理領域獲得新的方法的設想并不成功。數(shù)理領域的breakthrough出現(xiàn)概率并不高,而且,想要將其他領域的方法遷移到自己的領域,一方面,獲取方法的時間成本會成倍地增長;另一方面,踩雷的風險絕不低。
作為一個能夠流暢讀寫論文的研究生,絕對不要指望用Arxiv能對英語水平有多少提升。 很簡單,因為Arxiv上的論文,在沒有經(jīng)過會議和期刊對語言的篩選打磨時,英語質(zhì)量著實參差不齊。目前英語詞匯量在1w左右的我感受到的瓶頸,主要來自詞匯的使用不夠多樣化導致的語言生硬,以及做不到快速逐行閱讀。而論文能讓人鍛煉快速閱讀的部分并不多,很多內(nèi)容都是要邊思考邊看的。論文作者也未必是Native speaker,很可能寫文章的時候也詞窮。對于這個個人問題,最近摸索的結論是,看CNN和BBC的新聞,對語言的提升效果遠好于讀論文。
總而言之,Arxiv上良莠不齊,對于研究領域的新手(博一博二及以下)來說,并不應該以刷Arxiv作為信息獲取的主要渠道。我的導師在聽說我的計劃的時候,曾經(jīng)勸阻過我:
“你現(xiàn)在不應該大量漫無目的地閱讀文獻。而是應該努力尋找可能給你提供新的研究靈感,或者教會你研究方法的論文?!?/em>
也就是說,搜索特定詞條下的論文和Tutorial對我這個階段的研究生幫助會更大。Arxiv在現(xiàn)階段更適合作為檢索是否存在idea撞車的數(shù)據(jù)庫,而非圖書館。至于領域中的老手,刷Arxiv的時間成本應該顯著降低(很多方法只要大致瀏覽就能理解),但若要緊跟研究潮流,每天1~2小時的閱讀應該還是少不了的。具體細節(jié),就等我能看到他們眼中的風景時再來和各位分享吧。
不過呢,Arxiv上樂子還是不少的??梢赃@么說:如果回到兩個月前,我不會開始刷Arxiv;但在經(jīng)歷這么多痛苦,逐漸摸索到一些門道之后的現(xiàn)在,我還是打算繼續(xù)刷下去的。希望接下去,Arxiv能提升我甄別論文的能力,此外,我會對有價值的論文做一些筆記,從而提升自己的理解概括能力。
本文描述的讀文獻方式“導師見打”,非搞笑人士請勿模仿!
[1].^RSS (Really Simple Syndication) 是一種消息來源的格式規(guī)范,網(wǎng)站可以按照這種格式規(guī)范提供文章的標題、摘要、全文等信息給訂閱用戶,用戶可以通過訂閱不同網(wǎng)站 RSS 鏈接的方式將不同的信息源進行聚合,在一個工具里閱讀這些內(nèi)容。
往期精彩:
Swin Transformer:基于Shifted Windows的層次化視覺Transformer設計
TransUNet:基于 Transformer 和 CNN 的混合編碼網(wǎng)絡
ViT:視覺Transformer backbone網(wǎng)絡ViT論文與代碼詳解
【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf
求個在看
