FAIR最新無監(jiān)督研究:視頻的無監(jiān)督時空表征學習
點藍色字關注“機器學習算法工程師”
設為星標,干貨直達!
近期,F(xiàn)AIR的Kaiming He組發(fā)布了關于視頻的無監(jiān)督學習研究:A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning,這篇論文被CVPR2021收錄。論文的核心是將近期圖像中的無監(jiān)督學習方法應用在視頻的無監(jiān)督訓練中。這個工作實驗非常充分,也只有Facebook和Google 這樣的大廠才有足夠的資源來做這樣的大規(guī)模實驗。
論文中共選取了四種無監(jiān)督學習方法:MoCo,BYOL,SimCLR,SwAV。其中MoCo和SimCLR是需要負樣本的對比學習方法,而BYOL和SwAV是只依賴正樣本的無監(jiān)督學習方法。從另外一個角度看,MoCo和BYOL都采用了momentum encoder,而SimCLR和SwAV并沒有。這里的四種方法有兩類是Facebook提出的(MoCo和SwAV),另外的兩類SimCLR和BYOL則是Google提出的 。

這四種方法原本都是用于圖像的無監(jiān)督訓練,視頻相比圖像只是多了一個時間維度,這些方法可以非常容易地擴展到視頻的無監(jiān)督學習中。無論是圖像分類還是視頻分類,無監(jiān)督就是要學習到特征不變量。具體到圖像上,上述方法其實都是要同一個圖像做不同的augmentation送入一個encoder網(wǎng)絡來學習到不變的特征。那么對于視頻分類來說,除了圖像本身的變換外,還增加了時序維度。論文的做法是從同一個視頻中sample不同的視頻片段clips來做無監(jiān)督學習(這其實可看成video獨有的augmentation),這其實是希望學習到temporally-persistent features。論文中選擇的是SlowFast R-50來最為encoder。下圖展示了從一個視頻中抽取3個不同的clips:

如果只抽取一個clips,那么學習就其實只依賴圖像本身的變換,這對于視頻分類顯然不夠。論文實驗也證明了:more clips are beneficial。從下表可以看出,隨著clips的增加,四類方法的性能均會提升,這說明對視頻的無監(jiān)督學習來說:learning space-time persistence within a video is important。

另外一點是在采樣時timespan between positives越大越有效,這點也不難理解,因為圖像中也是越hard augmentation越好。不同clips時間差越大,將會產(chǎn)生hard positive,對于學習反而是有利的。不過如果是長視頻,那么時間差比較大的clips可能會發(fā)生語義變化,從論文實驗結果來看,對效果影響反而很?。▓D像分類的random crop其實也會改變語義,比如crop到了背景區(qū)域,不過看起來訓練是能夠容許noise的)。如下表所示,對于IG-Curated-1M數(shù)據(jù)集,當timespan大于60s時,性能還有提升;而對于IG-Uncurated-1M數(shù)據(jù)集,當timespan大于600s時,性能也只是有稍微下降。

具體到四種方法上,從實驗結果來看,雖然4種方法性能沒有太明顯的差距,但是MoCo和BYOL的效果要稍高于SimCLR和SwAV,前面已經(jīng)說話前者都采用了momentum encoder,momentum encoder的作用是盡量保持模型輸出的一致性,可能視頻分類這個問題上影響更大。論文里面也沒有給出具體的解釋。對于視頻分類來說,由于訓練所需資源更多,會不會無法采用較大的batch sizes(論文中是64*8=512),導致SimCLR效果稍差?這里面的變量較多,可能還需要進一步的研究。
當無監(jiān)督用于下游任務時,無監(jiān)督訓練方法在某些數(shù)據(jù)集上甚至可以超過有監(jiān)督訓練的方法,如基于BYOL在K400-240K無監(jiān)督訓練后應用在AVA和SSv2數(shù)據(jù)集上性能可以超過直接基于K400-240K的有監(jiān)督訓練后再在兩個數(shù)據(jù)集上finetune。

論文還有更多的實驗,更多可以詳見論文:https://arxiv.org/pdf/2104.14558.pdf
這篇論文通過大量的實驗證明了無監(jiān)督學習在視頻分類問題上的有效性,正如論文結尾所述,未來還有繼續(xù)提高的空間:
We observed that linear readout on Kinetics is a good indicator of the performance on other datasets and that unsupervised pre-training can compete with the supervised counterpart on several datasets, but there is room for improvement. We hope that our baselines will foster research and provide common ground for future comparisons.
推薦閱讀
"未來"的經(jīng)典之作ViT:transformer is all you need!
PVT:可用于密集任務backbone的金字塔視覺transformer!
漲點神器FixRes:兩次超越ImageNet數(shù)據(jù)集上的SOTA
不妨試試MoCo,來替換ImageNet上pretrain模型!
機器學習算法工程師
一個用心的公眾號

