點(diǎn)擊下方“AI算法與圖像處理”，一起進(jìn)步！
重磅干貨，第一時(shí)間送達(dá)

作者丨smarter

來源丨smarter

編輯丨極市平臺(tái)

導(dǎo)讀

別人的榮譽(yù)都是在某某大廠工作，拿過什么大獎(jiǎng)，而何愷明的榮譽(yù)是best，best，best ......本文細(xì)數(shù)了愷明大神的各項(xiàng)工作，一探究竟大神的榮譽(yù)史。?

榮譽(yù)

別人的榮譽(yù)都是在某某大廠工作，拿過什么大獎(jiǎng)，而何愷明的榮譽(yù)是best，best，best ......，裂開了

研究興趣

據(jù)我觀察，何愷明的研究興趣大致分成這么幾個(gè)階段：

傳統(tǒng)視覺時(shí)代：Haze Removal(3篇)、Image Completion(2篇)、Image Warping(3篇)、Binary Encoding(6篇)

深度學(xué)習(xí)時(shí)代：Neural Architecture(11篇)、Object Detection(7篇)、Semantic Segmentation(11篇)、Video Understanding(4篇)、Self-Supervised(8篇)

代表作

2009 CVPR best paper?Single Image Haze Removal Using Dark Channel Prior

利用實(shí)驗(yàn)觀察到的暗通道先驗(yàn)，巧妙的構(gòu)造了圖像去霧算法。現(xiàn)在主流的圖像去霧算法還是在Dark Channel Prior的基礎(chǔ)上做的改進(jìn)。

2016 CVPR best paper?Deep Residual Learning for Image Recognition

通過殘差連接，可以訓(xùn)練非常深的卷積神經(jīng)網(wǎng)絡(luò)。不管是之前的CNN，還是最近的ViT、MLP-Mixer架構(gòu)，仍然擺脫不了殘差連接的影響。

2017 ICCV best paper?Mask R-CNN

在Faster R-CNN的基礎(chǔ)上，增加一個(gè)實(shí)例分割分支，并且將RoI Pooling替換成了RoI Align，使得實(shí)例分割精度大幅度提升。雖然最新的實(shí)例分割算法層出不窮，但是精度上依然難以超越Mask R-CNN。

2017 ICCV best student paper?Focal Loss for Dense Object Detection

構(gòu)建了一個(gè)One-Stage檢測(cè)器RetinaNet，同時(shí)提出Focal Loss來處理One-Stage的類別不均衡問題，在目標(biāo)檢測(cè)任務(wù)上首次One-Stage檢測(cè)器的速度和精度都優(yōu)于Two-Stage檢測(cè)器。近些年的One-Stage檢測(cè)器(如FCOS、ATSS)，仍然以RetinaNet為基礎(chǔ)進(jìn)行改進(jìn)。

2020 CVPR Best Paper Nominee?Momentum Contrast for Unsupervised Visual Representation Learning

19年末，NLP領(lǐng)域的Transformer進(jìn)一步應(yīng)用于Unsupervised representation learning，產(chǎn)生后來影響深遠(yuǎn)的BERT和GPT系列模型，反觀CV領(lǐng)域，ImageNet刷到飽和，似乎遇到了怎么也跨不過的屏障。就在CV領(lǐng)域停滯不前的時(shí)候，Kaiming He帶著MoCo橫空出世，橫掃了包括PASCAL VOC和COCO在內(nèi)的7大數(shù)據(jù)集，至此，CV拉開了Self-Supervised研究新篇章。

近期工作

62-Exploring Simple Siamese Representation Learning

SimSiam：孿生網(wǎng)絡(luò)表征學(xué)習(xí)的頂級(jí)理論解釋

https://zhuanlan.zhihu.com/p/452659570

65-Masked Autoencoders Are Scalable Vision Learners

NLP和CV的雙子星，注入Mask的預(yù)訓(xùn)練模型BERT和MAE

https://zhuanlan.zhihu.com/p/435874456

時(shí)間線

1-Single Image Haze Removal Using Dark Channel Prior

kaiming he通過大量無霧圖片統(tǒng)計(jì)發(fā)現(xiàn)了dark channel prior—在無霧圖的局部區(qū)域中，3個(gè)通道的最小亮度值非常小接近于0(不包括天空區(qū)域)。

dark channel prior通過暗通道先驗(yàn)對(duì)haze imaging model進(jìn)行化簡(jiǎn)，近似計(jì)算得到粗糙的transmission，然后將haze imaging model和matting model聯(lián)系起來，巧妙的將圖像去霧問題轉(zhuǎn)化為摳圖問題，得到refined transmission，精彩！

何愷明經(jīng)典之作—2009 CVPR Best Paper | Dark Channel Prior

https://zhuanlan.zhihu.com/p/418174496

3-Guided Image Filtering

Guided image filtering是結(jié)合兩幅圖片信息的過程，一個(gè)filtering input image(表示為p)和一個(gè)guide image(表示為I)生成一個(gè)filtering output image(表示為q)。p決定了q的顏色,亮度,和色調(diào)，I決定了q的邊緣。對(duì)于圖像去霧來說，transmission就是p，霧圖就是I，refined transmission就是q。

guided filter則通過公式轉(zhuǎn)換，和濾波聯(lián)系起來，提出新穎的guided filter，巧妙的避開了linear system的計(jì)算過程，極大加快了transmission優(yōu)化的速度。

何愷明經(jīng)典之作—2009 CVPR Best Paper | Dark Channel Prior

https://zhuanlan.zhihu.com/p/418174496

37-Focal Loss for Dense Object Detection

Soft Sampling：探索更有效的采樣策略

https://zhuanlan.zhihu.com/p/63954517

38-Mask R-CNN

從R-CNN到Mask R-CNN的思維躍遷

62-Exploring Simple Siamese Representation Learning

SimSiam的理論解釋意味著帶stop-gradient的孿生網(wǎng)絡(luò)表征學(xué)習(xí)都可以用EM算法解釋。stop-gradient起到至關(guān)重要的作用，并且需要一個(gè)預(yù)測(cè)期望E的方法進(jìn)行輔助使用。但是SimSiam仍然無法解釋模型坍塌現(xiàn)象，SimSiam以及它的變體不坍塌現(xiàn)象仍然是一個(gè)經(jīng)驗(yàn)性的觀察，模型坍塌仍然需要后續(xù)的工作進(jìn)一步討論。

Self-Supervised: 如何避免退化解

https://zhuanlan.zhihu.com/p/365700730

SimSiam：孿生網(wǎng)絡(luò)表征學(xué)習(xí)的頂級(jí)理論解釋

https://zhuanlan.zhihu.com/p/452659570

63-A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

指出時(shí)空的Self-Supervised采樣同一個(gè)視頻的positive pair時(shí)間跨度越長(zhǎng)效果越好，momentum encoder比優(yōu)化目標(biāo)重要，訓(xùn)練時(shí)間、backbone、數(shù)據(jù)增強(qiáng)和精選數(shù)據(jù)對(duì)于得到更好性能至關(guān)重要。

何愷明+Ross Girshick：深入探究無監(jiān)督時(shí)空表征學(xué)習(xí)

https://zhuanlan.zhihu.com/p/369159211

64-An Empirical Study of Training Self-Supervised Vision Transformers

MoCov1通過dictionary as a queue和momentum encoder和shuffle BN三個(gè)巧妙設(shè)計(jì)，使得能夠不斷增加K的數(shù)量，將Self-Supervised的威力發(fā)揮的淋漓盡致。MoCov2在MoCov1的基礎(chǔ)上，增加了SimCLR實(shí)驗(yàn)成功的tricks，然后反超SimCLR重新成為當(dāng)時(shí)的SOTA，F(xiàn)AIR和Google Research爭(zhēng)鋒相對(duì)之作，頗有華山論劍的意思。MoCov3通過實(shí)驗(yàn)探究洞察到了Self-Supervised+Transformer存在的問題，并且使用簡(jiǎn)單的方法緩解了這個(gè)問題，這給以后的研究者探索Self-Supervised+Transformer提供了很好的啟示。

MoCo三部曲

65-Masked Autoencoders Are Scalable Vision Learners

MAE設(shè)計(jì)了一個(gè)encoder-decoder預(yù)訓(xùn)練框架，encoder只送入image token，decoder同時(shí)送入image token和mask token，對(duì)patch序列進(jìn)行重建，最后還原成圖片。相比于BEiT，省去了繁瑣的訓(xùn)練tokenizer的過程，同時(shí)對(duì)image token和mask token進(jìn)行解耦，特征提取和圖像重建進(jìn)行解耦，encoder只負(fù)責(zé)image token的特征提取，decoder專注于圖像重建，這種設(shè)計(jì)直接導(dǎo)致了訓(xùn)練速度大幅度提升，同時(shí)提升精度，真稱得上MAE文章中所說的win-win scenario了。

NLP和CV的雙子星，注入Mask的預(yù)訓(xùn)練模型BERT和MAE

https://zhuanlan.zhihu.com/p/435874456

kaiming科研嗅覺頂級(jí)，每次都能精準(zhǔn)的踩在最關(guān)鍵的問題上，提出的方法簡(jiǎn)潔明了，同時(shí)又蘊(yùn)含著深刻的思考，文章賞心悅目，實(shí)驗(yàn)詳盡扎實(shí)，工作質(zhì)量說明一切。

努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺相關(guān)內(nèi)容，歡迎關(guān)注：

交流群

歡迎加入公眾號(hào)讀者群一起和同行交流，目前有美顏、三維視覺、計(jì)算攝影、檢測(cè)、分割、識(shí)別、NeRF、GAN、算法競(jìng)賽等微信群

個(gè)人微信（如果沒有備注不拉群！）
請(qǐng)注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



下載1：何愷明頂會(huì)分享

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：終身受益的編程指南：Google編程風(fēng)格指南

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：c++，即可下載。歷經(jīng)十年考驗(yàn)，最權(quán)威的編程規(guī)范！


下載3 CVPR2021

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：CVPR，即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

何愷明編年史

榮譽(yù)

研究興趣

代表作

近期工作

時(shí)間線