談談CNN中的位置和尺度問題
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達

1 CNN是否存在平移和尺度的不變性和相等性
1.1 不變性和相等性的定義
cell的存在,其對于平移、旋轉有一定的不變性,另外由于對圖像局部對比度歸一化的操作,使其對于光照也有著一定的不變性。又比如說SIFT特征提取,其對于以上四點都有著不變性,其中由于尺度金字塔,使得對尺度也有不變性。這里我們對于不變性的理解就是,同一對象發(fā)生平移、旋轉、光照變化、尺度變換甚至形變等,其屬性應該一致。下面我們給出具體的不變性和相等性的定義。
而對于相等性(equivalence),顧名思義,就是對輸入進行變換之后,輸出也發(fā)生相應的變換:
不過如果我們只考慮輸出對于輸入不變性和相等性的情況,則會難以理解,因為我們更多地是想象著特征層面的映射,比如:
1.2 CNN網(wǎng)絡的執(zhí)行過程


1.3CNN網(wǎng)絡潛在問題與改進






Rectangle-2:[1, 1],類似于均值池化和最近鄰插值;
Triangle-2:[1, 2, 1],類似于雙線性插值;
Binomial-5:[1, 4, 6, 4, 1],這個被用在拉普拉斯金字塔中。




如果
是經(jīng)過卷積操作且滿足平移不變性的特征,那么全局池化操作
也滿足平移不變性;對于特征提取器
和降采樣因子
,如果輸入的平移都可以在輸出上線性插值反映出來:
由香農-奈奎斯特定理知,
滿足可移位性,要保證采樣頻率至少為最高信號頻率的2倍。
抗鋸齒,這個就是我們剛剛介紹的方法;
數(shù)據(jù)增強,當前在很多圖像任務中,我們基本都會采用隨機裁剪、多尺度、顏色抖動等等數(shù)據(jù)增強手段,的確也讓網(wǎng)絡學習到了部分不變性;
減少降采樣,也就是說只依賴卷積對于輸入尺度的減小來變化,這一點只對小圖像適用,主要是因為計算代價太高。
2 CNN對于位置和深度信息的預測
2.1CNN如何獲取目標的位置信息









2.2CNN如何預測目標的深度信息






2020.3.18更新


valid模式下卷積核最右邊的1永遠無法作用于綠色部分的1,same模式下的卷積核最右邊 1永遠無法作用于綠色部分的1 。作者以zero-padding和circular-padding兩種模式做了一個例子說明:
1,valid和same+zero-padding模式對于待卷積區(qū)域的絕對位置比較敏感。緊接著作者又分析了每個位置被卷積的次數(shù):






好消息!
小白學視覺知識星球
開始面向外開放啦??????
下載1:OpenCV-Contrib擴展模塊中文版教程 在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。 下載2:Python視覺實戰(zhàn)項目52講 在「小白學視覺」公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。 下載3:OpenCV實戰(zhàn)項目20講 在「小白學視覺」公眾號后臺回復:OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。 交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~
評論
圖片
表情

