計算機視覺 | 哥大讀博五年總結(jié)
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文轉(zhuǎn)自|計算機視覺聯(lián)盟
「?開始寫這邊總結(jié)的時候是三月,紐約成了疫情震中,看著新聞報道里的中央公園,中國城,第五大道,往事浮現(xiàn),于是開始寫這篇回顧。。陸陸續(xù)續(xù)一直沒寫完,轉(zhuǎn)眼年底了,加州疫情更糟。。前幾天看新聞?wù)fCathedral教堂發(fā)生槍擊案,震驚。。這教堂就在我當時住的學校公寓旁邊,每天出門都可以看到。。遂又憶起每天上學的時光,于是決定把這篇總結(jié)寫完,會分幾個part放出來??焓フQ了,希望疫情早日控制住,一切安好?」
剛上大學時,聽過不少學長學姐分享會;申請博士時,讀了不少留學申請總結(jié)。都收獲很大,讓當時啥也不懂的我,了解了每場游戲(如何度過一個充實的本科;如何拿到心儀的PhD offer)的principles:有啥規(guī)則,有啥技巧,等等。
開始讀博時候,我也去找類似的讀博經(jīng)歷分享,令我收益良多的,如熊輝老師,田淵棟和李沐大牛的總結(jié),林達華老師的blog;但可惜只有這寥寥幾篇,讀博又是一個復雜的事兒,當時的我并不能清晰地看見前面的路,遇到一些事亦因缺乏經(jīng)驗借鑒,走了彎路。于是當時便想著,等我畢業(yè)了,也得記下我學到的經(jīng)歷,希望能幫助到剛開始讀博,像我當年一樣迷茫的科研新人。也借此記錄和感恩一路走來,所有幫助過我的人,best of luck。
因為篇幅限制,有的問題難以講得完善全面,或跟您意見不合,全當看小說,尋個樂子罷了。
1.1 初到紐約
2014年夏天,在北京國際機場,我安慰我媽說,“沒事,明年暑假我就回來啦”,萬萬沒想到,一直忙忙碌碌,一去就是5年……可能是初次留學的興奮,十幾個小時的飛行,感覺很快就過了,到了JFK機場,坐上紐約特色的黃色的士。去學校路上,先是皇后區(qū)的平房,后來到了曼哈頓,深磚紅色的高樓,跟想象中的國際大都市并不大一樣,倒很有歷史厚重感,日后想想也是,紐約也不能到處都如時代廣場那般呀。
接著,辦入住,搞衛(wèi)生,小憩了一會兒,傍晚出去門口的超市買點吃的;第一次從112街,走到Broadway上,看著熙熙攘攘的外國人面孔,很傻的竟然笑了出來…那會兒自然是極開心的,就是一個毛頭小子,充滿了對未來生活期待的樣子(哎,回不去的青春啊);當然了,怎么也沒想到,接下來的一年,會如此艱難……

1.2 差距
開學后一系列事情,一下子讓我清清楚楚地,看到自己跟師兄們比,各個方面有著很大的差距。且不說核心業(yè)務(wù)能力了,首當其沖自然是語言環(huán)境的變化。
一天路上,一小哥對著我說:How are you?我想,這不是新概念英語上的經(jīng)典對話嗎,難道我真要回傳說中的I’m fine, thank you, and you?從那兒之后,我知道了,how are you就相當于,吃了么您吶,并不是真的問什么,而是打招呼,跟say hi差不多,一般回good good就可以了,甚至不回,直接也回對方how are you都行。
然后到了第一天來lab,正好Y來面博后,老板讓他給個talk,Y希臘口音的英語,再加上講的內(nèi)容涉及一些專業(yè)術(shù)語,幾十分鐘我?guī)缀跬耆珱]聽懂他說什么;會后跟他一對一meet,更是尷尬的很…后來18年來FB實習,巧了Y是我mentor之一,第一天帶我吃的午飯,我們交流完全無障礙了,他也不記得當年還見過我……我有個朋友總結(jié),剛來時候,跟外國人的交流,是三分靠聽,七分靠猜……現(xiàn)如今,即使是印度口音,只要不是說的特別差的,或者我特別不熟悉的東西,都能通暢交流了。感覺這沒啥技巧,首先要敢說,然后多跟不同的人聊天練習,慢慢就好了,倒不必太過擔心,徒增壓力。但是如果英語不好的話,難以跟外國專家合作,融入核心科研圈子,對長遠的發(fā)展耽誤很大,盡量在1-2年內(nèi)做好這個提升。
1.3 讓老板知道你在干活
因為我是本科畢業(yè)直博,剛讀博那會兒,思維里還是默認,導師是教育培養(yǎng)學生的角色,指導學生做出成績;明白但沒有深刻認識到,博士生與導師還有雇傭關(guān)系。第一個學期,我主要是跟著師兄們做,跟導師大概一個月meet一次,每周有weekly report。開學時,老板把我分給一個師兄帶,參與他的項目A,是個很好的學習機會,但是發(fā)不了paper。
11月,CVPR投稿的季節(jié),另一個師兄找到我?guī)兔ψ鲰椖緽,這個項目準備投CVPR,做出來的話可以co-author。于是我那段時間都撲在做B上,終于實現(xiàn)了其中一個核心的模塊。CVPR投稿完的那周,正好導師約meet,我想B的事情做完了,下面精力就都是做原本的A了,meet對我來說,主要目的是確定下接下來的plan唄。
正好搞CVPR之前,項目A的師兄讓我reproduce一篇nips文章的方法,用到項目A的data上,于是,我準備的slides主要介紹那篇nips和怎么用到項目A上。結(jié)果meeting結(jié)束,導師很不高興,覺得我這幾周沒有progress。記得那天導師辦公室沒開燈,冬天下午五點的紐約,天已經(jīng)黑了,周圍一片黑壓壓的,更顯壓抑。
我當時挺驚訝的,因為原還以為在導師印象中,是我參與了B的CVPR投稿,很impress呢。我后來仔細反思了下,雖然這幾周我對B也算是嘔心瀝血,weekly report里也有提,但是,一來我只是coauthor,對于B工作整體而言算不上main contributor;二來導師很忙,不能assume對方完全了解并且記得你做過的一點一滴。同時,我也明白了這個meeting的目的既是討論research ideas,但也是review progress,我首先得讓導師明白,我這段時間有在好好干活?,F(xiàn)在的我,不會只提項目A之后我想怎么做,會同時準備一頁slide總結(jié)下我對B的貢獻。
1.4 自己的感受沒那么重要
我們系第一個學期末就要博士資格考試。這個考試,各個學校稱呼不同,大概就是博士生通過這個考試,才證明有能力,qualify繼續(xù)讀博士。我們系給大家兩次機會,第一學期末第一次考,沒通過的第三學期末再考一次,要是還沒考過,就只能卷鋪蓋走人了。而且這考試還真不是走過場,每次大概掛三分之一的人,所以真真切切見到周圍有人因為qualify沒過走人的。
我本科學的CS,博士因為fellowship是EE發(fā)的,所以在EE系。這可愁壞我了,因為考的是EE的基礎(chǔ)topics,電路,DSP,網(wǎng)絡(luò)啥的我大都一竅不通。于是第一個學期的課,我選了門DSP,準備好好從頭學。這是硬課,再加上平常主要精力還得放在lab的項目上,第一學期壓力巨大。記得有一天,晚上睡覺做了噩夢,夢到不知什么怪物,驚醒,醒來想到各種tasks各種due,頓時只想繼續(xù)回到夢中,相比而言,還是怪物比較可愛……這時候,只好把自己的感受擱置一邊,累、苦,想這些又有什么用呢,只能更加平添煩惱。該做什么就去做,告訴自己干就完了,結(jié)束后反而發(fā)現(xiàn),過程其實也就那樣,有時候我們只是過度看重了自己的感受,夸大了困難的程度,其實自己的感受沒那么重要,只要身體本身還撐得住。
qualify考試在1月初。12中旬,忙完了期末考試,去Chinatown吃了頓好的,回家看了部電影,然后跟導師請好假,專心復習qualify。大概有三周的復習時間,除了DSP,其他的topics完全從零開始學。后來覺得,這考試的目的,不是考的知識本身,而考的是學習能力。復習的過程是很慘了,時值圣誕節(jié)假期,朋友圈各式各樣在佛羅里達坐游輪的,迪士尼看煙花的,回國火鍋小燒烤的;而那年的紐約還尤其的冷,家里的暖氣開到最大,還是冷的不行,我只能早出晚歸的去圖書館;路面凍得白花花的,公車開過揚起白沙,從家里112街到圖書館114街只有5分鐘,但卻那么漫長;每天幾條褲子疊著穿,有天開始一度冷到零下負十幾度,我剛出門一會兒就趕緊回來,在牛仔褲外面又套了件運動褲……所幸最后考試通過了,小秘告訴我竟然考了第三,震驚,真是功夫不負有心人訥……

1.5 上課沒那么重要
第一學期,選DSP,純?yōu)榱丝紂ualify exam修的,跟我日后的研究,基本不搭噶。我第一學期還修了機器學習,機器學習我之前沒有系統(tǒng)學過,學完還是受益良多。但為了達到學分要求,我博士期間,被迫修了14門課,第四年還在上課……我的感覺是,AI是實踐科學,上課沒那么重要,很多時候甚至是浪費時間。我覺得值得選課去學的,可能就是機器學習,算法,就夠了。搞CV方向的,與其上門CV,還不如自學網(wǎng)上教程,親身參與幾個項目,學的更快,對書上的知識有更深刻的理解。我覺得上課最大的作用,就是去了解這門學科,有哪些基本的概念和算法(所謂把unknown unknown變成known unknown),哪天你要用到他們了,需要把known unknown變成known known的時候,知道在Google里輸入啥關(guān)鍵詞去搜。
當然如果有時間,上些基礎(chǔ)型的硬課,自然沒啥;但對于博士生,時間本就緊張,就得做做平衡了,選些seminar的課比較好,一般主要就是讀論文,做project。我后面陸陸續(xù)續(xù)帶了很多低年級的學生,很多人學期伊始,覺得要多學些知識,選的都是硬課,學期過半,發(fā)現(xiàn)作業(yè)做不完,科研沒時間,兩頭耽誤,都是后悔不已…
第一學期在課業(yè),科研,qualify考試,適應(yīng)國外環(huán)境,種種碾壓之下,總算過去了……雖然痛苦,但只是工作量大,努力使勁就好了……第二個學期開始,2015年于我,關(guān)鍵詞是迷茫,努力努力但怎么也使不上勁的那種……
第二學期開始,重心主要集中在research上了,跟導師的meeting也從一月一次變成了每周一次,有幸得導師親自調(diào)教各種真正做科研的能力了。導師給我定了個新的項目,深度學習下的incremental learning。這其實是個很難的問題,現(xiàn)在5年后來看,都沒有被很好的解決;亦沒有一個標準的benchmark,也就是說,其實大家還沒有定義好這個問題;記得導師那會兒說,if you can formulate this problem,這個問題就已經(jīng)解決70% 了。
結(jié)果忙忙碌碌幾個月,研究了很多文獻,做了很多實驗,還是沒有太大的進展,就是感覺很迷茫了,不知道下一步該干嘛。幸運的是,到5月份,導師讓我跟師兄一起參加一個叫THUMOS的比賽,這其實又是個新的項目了;開始我還覺得,已經(jīng)忙不過來了,哪有時間再多一個項目,后來慶幸參與了這次比賽,開始了我做video這個方向的科研生涯。
那會兒video領(lǐng)域,大家主要做classification,而且是幾秒的短視頻;THUMOS是長視頻,而且不光有action classification task,還要一個task是action detection,檢測你所感興趣片段的開始/結(jié)束時間。參加比賽時,我跟著師兄主要搞classification,邊做邊學,上手了處理視頻的模型和框架,收獲很大。比賽完后,我發(fā)現(xiàn)classification大家搞的火熱,而detection,同樣很重要的一個課題,卻沒有人研究過基于深度學習的方法,于是就有了我的第一篇CVPR文章,收到了很多follow-up。我自己也算是找到了自己的研究方向,不再迷茫。
我覺得這段經(jīng)歷,對新手很有參考價值,很多時候光努力不夠,方向更重要。新手如何選博士幾年的topic,有兩個問題值得思考:
能不能快速上手?有幾個簡單的評判標準:
state-of-the-art的paper有沒有開源的代碼?目的是你能迅速復現(xiàn)baseline,熟悉整體pipeline(如怎樣預處理,后處理),加深對實現(xiàn)和細節(jié)的理解
有沒有對這個topic有hands-on經(jīng)驗的師兄,或者community里面approachable的前輩?目的是,當你遇到實現(xiàn)上的細節(jié)問題,可以及時咨詢和得到反饋
這個topic有沒有比賽,或者標準的benchmark?目的是,有大家已經(jīng)定義好的數(shù)據(jù),實驗setup,評價標準;這樣,你有可以直接比較的baseline,outperform baseline的時候也容易被人認可
能不能有大的impact?這里我指的是博士期間的大方向,由一系列單項的工作或者paper構(gòu)成。
單篇paper通常有三種類型:
(1)First work:開創(chuàng)了一個topic,比如RCNN于object detection
(2)Last work:基本解決了一個topic,比如Faster-RCNN,YoLo于object detection
(3)Improve類型,介于First和Last之間的。
Last很難,Improve常見但影響力不夠深遠,對于新手而言,博士的早期工作,在有能力做出來和有impact之間的trade-off比較好的,估計是First了,不一定非要是第一篇,只要是某個topic里面開創(chuàng)性工作的那一批之一,都是不錯的。這個早期工作之后,你會對這個問題哪里要改進,有很清楚的認識,因為improvement room大,也會有很多ideas。
同樣,早期的時候怎么選這樣一個topic呢:相關(guān)的比賽是這一兩年新開的嗎,相關(guān)的benchmark是這一兩年出來的嗎,上面的結(jié)果提升空間大嗎(現(xiàn)在是20%還是已經(jīng)80%了)?
2.2 單篇Paper選題

前面說的PhD選題是大方向上的,具體到每一篇paper,選擇的principle和重點則不太一樣。來Facebook后從馬爺爺那知道了一個著名的Heilmeier問題系列,是指導老師們申項目的,我覺得稍微改改,便很適用于我們考慮,某一篇paper的選題,合不合適:
What are you trying to do??Articulate your objectives using absolutely no jargon.
How is it done today, and what are the limits of current practice?
Who cares??[Support other’s research? Shape research landscape? Power applications in industry?]
What's new in your approach?and why do you think it will be successful?
If you're successful,?what difference will it make??[e.g. Contributions in theory/modeling? Improve accuracy by 5% on dataset A, B, C…?]
What are the risks and the payoffs??[Further, how would you mitigate the risks? If your proposed method does not work, what could be alternative design? These can end up as discussions such as ablation studies in your paper.]
How much will it cost??[e.g. How many GPUs do your experiments require? How long is each training process? How about data storage?]
How long will it take??[How many hours are you going to work on this per week? When is the submission DDL? Can you make it?]
What are the midterm and final "exams" to check for success?
知乎:https://zhuanlan.zhihu.com/p/336801134
end
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

