<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          高糊圖片可以做什么?

          共 3079字,需瀏覽 7分鐘

           ·

          2021-04-19 10:20

          點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          本文轉(zhuǎn)自:視學(xué)算法

          出一張低分辨率圖像,你可以用它做什么,用機(jī)器學(xué)習(xí)方法將它盡量恢復(fù)原貌?除此之外呢?近日,谷歌 David Berthelot、Peyman Milanfar,以及 Goodfellow 提出了一種名為 LAG 的生成器,可以基于一張低分辨率圖像生成一組合理的高分辨率圖像。
          生成逼真圖像是一件困難的任務(wù),近來(lái)研究人員提出了很多處理該任務(wù)的方式。如果我們把這項(xiàng)任務(wù)限制在生成特定類別的圖像,任務(wù)就會(huì)簡(jiǎn)單許多。也就是說(shuō),不用基于自然圖像流形生成任意圖像作為樣本,而是從自然圖像的特定「子空間」內(nèi)采樣圖像,而這一過(guò)程由來(lái)自相同子空間的低分辨率圖像指引

          最近谷歌發(fā)表了一項(xiàng)研究,作者為谷歌研究院 David Berthelot、Peyman Milanfar,以及前谷歌大腦科學(xué)家、現(xiàn)蘋果機(jī)器學(xué)習(xí)特殊項(xiàng)目組負(fù)責(zé)人 Ian Goodfellow。


          • 論文鏈接:https://arxiv.org/pdf/2003.02365.pdf

          • 代碼地址:https://github.com/google-research/lag


          該研究試圖解決的問(wèn)題與單張圖像超分辨率問(wèn)題接近,但又有區(qū)別。圖像超分辨率問(wèn)題是指從低分辨率(LR)圖像中恢復(fù)高分辨率(HR)圖像的過(guò)程,而該研究目的不在于此,它試圖使用輸入圖像作為指引,生成一組合理的高分辨率圖像。

          具體而言,該生成采樣框架僅使用輸入(大概率是極低分辨率的圖像)來(lái)指向網(wǎng)絡(luò)應(yīng)生成的樣本類別。而且,該算法的輸出不只是與輸入相關(guān)的單張圖像,而是基于自然圖像流形采樣得到的相關(guān)圖像集合。

          LAG 方法僅在對(duì)抗?jié)撛诳臻g中使用感知損失進(jìn)行學(xué)習(xí),無(wú)需像素?fù)p失

          那么 LAG 效果如何呢?下圖展示了該方法在人臉、臥室和教堂這三個(gè)類別上的圖像生成效果:


          研究貢獻(xiàn)

          LAG 方法旨在解決現(xiàn)有方法的基本缺陷,并做出了以下貢獻(xiàn):

          • 將輸入圖像建模為一組可能的圖像,而不是單張圖像,即建模了(低分辨率)輸入圖像的流形;

          • 學(xué)習(xí)單個(gè)感知潛在空間,來(lái)描述預(yù)測(cè)和真值之間的距離;

          • 分析條件 GAN(conditional GAN)和 LAG 之間的關(guān)系。


          LAG 方法

          給定一個(gè)低分辨率的輸入圖像 y,該研究希望預(yù)測(cè)出可能的高分辨率圖像的感知中心 x。該研究提出將可能的高分辨率圖像建模為隨機(jī)向量 z(z ∈ R^n, z ~ N (0, 1))。在該模型中,(y,z) 唯一地映射到一張高分辨率圖像 x_z。該研究假設(shè)高分辨率圖像 x 是在 z=0 的正態(tài)分布的中心點(diǎn)獲得的。

          訓(xùn)練所用的函數(shù)需要 (y,z) 來(lái)預(yù)測(cè)高分辨率圖像 x_z。該研究采用 GAN 術(shù)語(yǔ),將此函數(shù) G 稱為生成器:


          該研究設(shè)計(jì)了 critic 函數(shù),用于判斷高分辨率圖像 x 是否和低分辨率圖像 y 相對(duì)應(yīng)。該研究提出將 critic 函數(shù) C 分解為兩個(gè)函數(shù):

          • 從圖像到潛在空間 p 的投影 P;

          • 從該潛在空間到 R 的映射 F。


          研究者將 p 稱為「感知潛在空間」。將投影函數(shù) P 定義為:


          由 φ 和 ψ 參數(shù)化的 critic C: 是 F 和 P 的組成部分:


          函數(shù) G、P 和 F 都是用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。

          LAG 實(shí)現(xiàn)細(xì)節(jié):損失、條件和架構(gòu)

          該研究使用具有梯度懲罰(gradient penalty)的 Wasserstein GAN 損失。值得注意的是,使用 relativistic GAN 和譜歸一化卷積也能得到不錯(cuò)的結(jié)果。不過(guò),該研究沒(méi)有窮盡所有可能的 GAN 損失選擇(不在該論文研究范圍內(nèi))。

          研究者通過(guò)向 critic 提供低分辨率輸入與真值的絕對(duì)差異來(lái)簡(jiǎn)化 critic 任務(wù)。即,計(jì)算


          其中 x_z = G(y, z) 是生成的樣本,H : R^x |→ R^y 是縮放算子,r 是顏色分辨率。縮放算子為高分辨率圖像生成對(duì)應(yīng)的低分辨率圖像。研究者將縮放算子的輸出四舍五入到最接近的顏色分辨率,在該案例中 r = 2/255。這種做法是為了避免網(wǎng)絡(luò)不穩(wěn)定。為了允許通過(guò) rounding 操作進(jìn)行梯度傳播,該研究使用了 Hinton 的直通估計(jì)器(straight through estimator)[7]。

          假設(shè) stop gradient operation 為 sg,則直通估計(jì)器為:


          這里,研究者并沒(méi)有提倡某一個(gè)特定的神經(jīng)網(wǎng)絡(luò)架構(gòu),因?yàn)橛泻芏酀撛诳捎玫膶?shí)現(xiàn)。更新更好的架構(gòu)層出不窮,LAG 應(yīng)該與其他架構(gòu)相適應(yīng)。在實(shí)踐中,研究者決定使用類似 EDSR 的殘差網(wǎng)絡(luò)。對(duì)于 critic,該研究使用了幾乎一樣的架構(gòu),但順序是相反的。

          該架構(gòu)按照 [9, 19] 提出的方法訓(xùn)練得到。關(guān)于架構(gòu)和訓(xùn)練細(xì)節(jié),以及 TensorFlow 代碼,參見(jiàn) GitHub 項(xiàng)目。

          LAG 的效果:生成逼真的圖像合集

          LAG 方法的主要優(yōu)勢(shì)在于不止生成一張圖像,而是基于一張低分辨率輸入圖像生成一組合理的圖像。也就是說(shuō),建模可能圖像的集合,并預(yù)測(cè)位于其中心的圖像,還能夠基于 z ~ N (0, 1) 的分布生成樣本。

          該研究用三個(gè)類別說(shuō)明 LAG 方法的能力:人臉、教堂和臥室,還展示了該方法的跨類別生成圖像能力。

          圖 1:對(duì)于不同的 z 值,基于 8x 下采樣輸入得到的生成圖像示例。

          圖 2:對(duì)于不同的 z 值,基于 32x 下采樣輸入得到的生成圖像示例。

          鏡像圖像

          在該實(shí)驗(yàn)中,研究者試圖觀察 LAG 網(wǎng)絡(luò)跨類別生成圖像的性能,即考慮給定圖像及其鏡像圖像。

          圖 5:基于 16x 下采樣輸入得到的生成圖像示例。

          圖 6:基于 16x 下采樣輸入得到的生成圖像示例。

          噪聲和隨機(jī)輸入

          出于完備性考慮,研究者在該實(shí)驗(yàn)中考慮了 LAG 網(wǎng)絡(luò)對(duì)帶噪聲圖像輸入或僅包含噪聲的輸入圖像的反應(yīng)。

          圖 7:基于 32x 下采樣輸入得到的生成圖像示例,輸入圖像具備噪聲,且噪聲逐漸增加。

          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺(jué)。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 44
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  夜夜高潮夜夜爽 | 国产欧美在线 | 免费看男女日逼吧 | 丁香五月婷婷色综合 | 国产扒开腿精品无码高潮视频 |