萬字長文:哥大CV博士總結(jié)五年讀博生涯,即將入職新加坡國立大學(xué)任助理教授

極市導(dǎo)讀
?在這篇文章中,哥倫比亞大學(xué)博士Mike Shou講述了自己的五年讀博經(jīng)歷,包括如何確定研究方向、如何確定單篇論文的選題、如何做報(bào)告、如何做出職業(yè)選擇等,希望可以給正在讀博或準(zhǔn)備讀博的你提供一些啟發(fā)。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

0. 寫在前面
1. 萬事開頭難 (第一學(xué)期)


2. 方向比努力重要
state-of-the-art 的 paper 有沒有開源的代碼?目的是你能迅速復(fù)現(xiàn) baseline,熟悉整體 pipeline(如怎樣預(yù)處理,后處理),加深對實(shí)現(xiàn)和細(xì)節(jié)的理解
有沒有對這個(gè) topic 有 hands-on 經(jīng)驗(yàn)的師兄,或者 community 里面 approachable 的前輩?目的是,當(dāng)你遇到實(shí)現(xiàn)上的細(xì)節(jié)問題,可以及時(shí)咨詢和得到反饋
這個(gè) topic 有沒有比賽,或者標(biāo)準(zhǔn)的 benchmark?目的是,有大家已經(jīng)定義好的數(shù)據(jù),實(shí)驗(yàn) setup,評價(jià)標(biāo)準(zhǔn);這樣,你有可以直接比較的 baseline,outperform baseline 的時(shí)候也容易被人認(rèn)可

What are you trying to do??Articulate your objectives using absolutely no jargon.
How is it done today, and what are the limits of current practice?
Who cares??[Support other’s research? Shape research landscape? Power applications in industry?]
What's new in your approach?and why do you think it will be successful?
If you're successful,?what difference will it make??[e.g. Contributions in theory/modeling? Improve accuracy by 5% on dataset A, B, C…?]
What are the risks and the payoffs? [Further, how would you mitigate the risks? If your proposed method does not work, what could be alternative design? These can end up as discussions such as ablation studies in your paper.]
How much will it cost? [e.g. How many GPUs do your experiments require? How long is each training process? How about data storage?]
How long will it take? [How many hours are you going to work on this per week? When is the submission DDL? Can you make it?]
What are the midterm and final "exams" to check for success?
3. 談?wù)?Presentation
如果可能的話,事先了解你的聽眾背景,是跟你做同一個(gè) topic 的,還是同一個(gè)大領(lǐng)域但不同 topic 的,還是完全其他專業(yè)背景的。需要根據(jù)聽眾背景,定制和調(diào)整:比如,需不需要多介紹些背景?需不需要更深入技術(shù)細(xì)節(jié)?等等
一頁 slide 盡可能 focus 在一個(gè)點(diǎn)上,不要信息量過大,否則聽眾很容易 lost
盡可能多用圖片表達(dá),不要大段大段的列文字,A picture is worth a thousand words
上面這兩點(diǎn),其實(shí) principle 都是盡量讓要講的內(nèi)容簡單明了,因?yàn)楹芏鄷r(shí)候我們在聽 talk,這樣被動(dòng)接受的時(shí)候,接受新知識的能力是比主動(dòng)接受時(shí)候(比如看 paper)低的。
當(dāng)聽眾問問題的時(shí)候,If you don’t know the answer, just say don’t know.
如果是跟 mentor 日常討論的 slides,因?yàn)闀?huì)討論到很細(xì)節(jié)的東西,有些圖 PPT 畫起來,很花時(shí)間,而且通常這樣細(xì)節(jié)的圖還挺多,所以可以就 ipad 上面手畫一畫,截個(gè)圖放到 PPT 里就好了;如果是正式一點(diǎn)的 presentation,寫 slides 跟寫 paper 的 principle 有點(diǎn)像,不要太 focus 在細(xì)節(jié)上,更重要的是講清楚 motivation,為什么這樣設(shè)計(jì),細(xì)枝末節(jié)的不關(guān)鍵的內(nèi)容,放在 backup slides 里面。

先給一個(gè) Talk。寫 paper 最難的是構(gòu)思 storyline,而最好的完成這一步的方法就是先對你的工作做一個(gè) slides,給周圍的人 present 一遍。這個(gè)過程中,你會(huì)梳理好自己的思路,畫好文中的 figure,準(zhǔn)備好實(shí)驗(yàn)結(jié)果的 table,周圍的人還可以給你提意見,幫助你完善,等這個(gè) talk 給完了,后面寫 paper 就會(huì)順暢自然了。其實(shí)我現(xiàn)在,如果準(zhǔn)備投一個(gè) paper,當(dāng)做了一段時(shí)間后,就會(huì)按照最終 presentation 的思路,準(zhǔn)備 slides,用在每周給老板們 report 時(shí)。開頭先快速 review 一下做的 task 和提出的方法,remind 一下 context,然后重點(diǎn) focus 在那周做的新東西上,所以每周匯報(bào)的 slides 可能 80% 都是跟上一周一樣的,然后新的方法和實(shí)驗(yàn)結(jié)果的那幾頁 slides 是新的,有比較多的細(xì)節(jié)。
用 Google doc 做語法檢查。剛寫好的 paper 有 typo 和語法錯(cuò)誤是很難避免的,但常常會(huì)被 reviewer 揪著不放。大家寫 paper 如今大都在 overleaf 上,但 overleaf 的查錯(cuò)還是不夠好,建議可以寫完 paper 后,貼到 Google doc 里面。幾年前開始,估計(jì)是由于 deep learning 對 Google NLP 的改進(jìn)很大,感覺 Google 自動(dòng)改的質(zhì)量已經(jīng)非常高了。
Rationale 很重要。不光是要講清楚你怎么做的,更要 justify 你問什么這么做;不光要講你的結(jié)果比 baseline 好,更要解釋為什么好;讀者看到的不應(yīng)是一個(gè) “使用手冊”。有時(shí)候我們寫 paper,花了很多篇幅寫了很多實(shí)現(xiàn)細(xì)節(jié),但是更重要的是,解釋 “為什么”,這個(gè)背后的邏輯和 insights。
大部分 paper 都是提出一個(gè)新的方法,這類方法型 paper?似乎都可以套下面這個(gè)框架:
Introduction:可以分為以下幾個(gè)部分:
Problem definition
Previous methods and their limits
簡單描述你是提出了什么技術(shù)來 overcome 上面的 limits
一個(gè)圖,非常 high-level 的解釋前人工作的 limits 和你的工作怎么解決了這些 limits,最好讓人 30?秒內(nèi)完全看懂
最后一段如今大都是,In summary, this paper makes three contributions: First work to 解決什么 limits;提出了什么 novel 的技術(shù);outperform 了 state-of-the-art 多少
Related Work:一般三五個(gè) subsection,分別 review 下相關(guān)的 topics,同樣不光講 previous work 做了啥,更要講自己的方法跟前人工作有啥不同
Method
這是文章的主體,按照你覺得最容易讓別人看懂的方式來講
可以第一個(gè) subsection 是 overview,formulate 一下你的 problem 給出 notation,配一個(gè)整體 framework 的圖,圖里面的字體不能太大或者太小看不清,要有些細(xì)節(jié),讓人光看圖就能明白你的方法是怎么回事,但不要過于復(fù)雜,讓人在不超過 2 分鐘的時(shí)間看完這張圖
然后幾個(gè) subsection 具體介紹你的方法或者模型;如果 testing 跟 training 不太一樣,最后一個(gè) subsection 介紹 inference 時(shí)候的不同,通常是一些 post-processing 操作
Experiment
Datasets
Implementation details such as pre-processing process, training recipe
Evaluation metrics
Comparisons with state-of-the-art
Detailed analysis
Alternative design choice exploration
Ablation studies
Visualization examples
Conclusion (and Future Work)
Abstract:是全文的精簡版,建議在 paper 寫完第一稿差不多成型了,有定下來的成熟的 storyline 了,再去寫 abstract;大概就是用一兩句話分別概括 paper 里面每個(gè) section,然后串起來
4. 記四次開會(huì)


5. 記三次實(shí)習(xí)

6. 沒那么簡單的事
7. 畢業(yè)后何去何從
8. 雜七雜八
推薦閱讀

