<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CV崗位面試題:輸入圖片尺寸不匹配CNN網(wǎng)絡(luò)input時(shí)候的解決方式?(三種以上)

          共 1548字,需瀏覽 4分鐘

           ·

          2021-03-08 16:24

          文 | 七月在線
          編 | 小七


          解析:


              1.  two-fixed方法:直接對輸入圖片Resize縮放;

              2. one-fixed方法: 固定一邊,縮放另一條邊;

              3. free方法:去掉FC全連接層加入全局池化層,或者使用卷積層替換全連接層;

          網(wǎng)絡(luò)之所以要輸入固定大小的圖片,主要是因?yàn)榫W(wǎng)絡(luò)中存在FC全連接層,而且全連接層的一個(gè)缺點(diǎn)是參數(shù)量大容易導(dǎo)致過擬合,關(guān)于這部分解釋說明可以參考第9題“如果最后一個(gè)卷積層和第一個(gè)全連接層參數(shù)量太大怎么辦?”
           
          卷積層替換全連接層

          在經(jīng)典分類網(wǎng)絡(luò),比如LeNet、AlexNet中,在前面的卷積層提取特征之后都串聯(lián)全連接層來做分類。目前很多網(wǎng)絡(luò)比如YOLO系列、SSD以及Faster RCNN的RPN,MTCNN中的PNet等都使用卷積層來代替全連接層,一樣可以做到目標(biāo)分類的效果,而且具有以下優(yōu)點(diǎn):

          1. 更靈活,不需要限定輸入圖像的分辨率;

          2. 更高效,只需要做一次前向計(jì)算;

          全連接層和卷積層只要設(shè)置好了對應(yīng)的參數(shù),可以在達(dá)到相同輸入輸出的效果,在這個(gè)意義上,在數(shù)學(xué)上可以認(rèn)為它們是可以相互替換的。

          將全連接操作轉(zhuǎn)化成卷積操作,也就是卷積最后一層的feature map 如果使用卷積操作是將每個(gè)神經(jīng)元 Flatten之后dense連接到后面的若干神經(jīng)元,以AlexNet為例,最后一層為256x7x7,得到后面的4096個(gè)神經(jīng)元,但是如果使用7X7的卷積核對前面的FeatureMap進(jìn)行繼續(xù)卷積(padding=0),不也可以得到 4096X1X1的向量嗎,如果圖片大一些,例如384x384,那沒AlexNet最后一層的大小就是256X12X12經(jīng)過一個(gè)7x7的卷積核之后就是4096x6x6了,這時(shí)候這6x6=36個(gè)神經(jīng)元就有了位置信息。如下圖所示:
                                      

          卷積替代全連接的優(yōu)點(diǎn):

          1. 對輸入分辨率的限制

          如果網(wǎng)絡(luò)后面有全連接層,而全連接層的輸入神經(jīng)元個(gè)數(shù)就是固定的,那么反推上層卷積層的輸出是固定的,繼續(xù)反推可知輸入網(wǎng)絡(luò)的圖片的分辨率是固定的。例如,LetNet由于由全連接層,輸入就只能是28 x 28的。

          如果網(wǎng)絡(luò)中的全連接層都用卷積層替代,網(wǎng)絡(luò)中只有卷積層,那么網(wǎng)絡(luò)的輸出分辨率是隨著輸入圖片的分辨率而來的,輸出圖中每一個(gè)像素點(diǎn)都對應(yīng)著輸入圖片的一個(gè)區(qū)域(可以用stride,pooling來反算)。

          2. 計(jì)算效率比較

          同樣以LeNet來做例子,如果一個(gè)圖片是280 x 280的分辨率,為了識別圖片中所有的數(shù)字(為了簡單,假設(shè)每個(gè)數(shù)字都是在這個(gè)大圖劃分為10 x 10的網(wǎng)格中),那么為了識別這100個(gè)位置數(shù)字,那么至少需要做100次前向;而全卷積網(wǎng)絡(luò)的特點(diǎn)就在于輸入和輸出都是二維的圖像,并且輸入和輸出具有相對應(yīng)的空間結(jié)構(gòu),我們可以將網(wǎng)絡(luò)的輸出看作是一張heat-map,用熱度來代表待檢測的原圖位置出現(xiàn)目標(biāo)的概率,只做一次前向就可以得到所有位置的分類概率。
          瀏覽 104
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  水多多成人网站A片在线观看 | 国产豆花成人免费视频 | 五十路激情| 渣女AV在线 | 天天一啪极品御姐 |