<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          TPAMI 2022|基于最優(yōu)傳輸理論的無監(jiān)督圖像重建學(xué)習(xí)

          共 4825字,需瀏覽 10分鐘

           ·

          2022-05-24 02:34

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨王煒
          來源丨上海交通大學(xué)類腦智能應(yīng)用與技術(shù)中心
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          本項(xiàng)研究基于最優(yōu)傳輸理論構(gòu)建無監(jiān)督重建學(xué)習(xí)的最優(yōu)框架,證明了Wasserstein-1空間中最優(yōu)傳輸準(zhǔn)則的松弛求解不變性。在攝影圖像、熒光顯微鏡圖像、深度圖像等多種實(shí)際數(shù)據(jù)上,新方法實(shí)現(xiàn)了遠(yuǎn)超現(xiàn)有無監(jiān)督/自監(jiān)督方法的性能,在重建感知質(zhì)量上甚至優(yōu)于SOTA有監(jiān)督方法。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          論文地址:https://ieeexplore.ieee.org/document/9763342

          開源地址代碼:https://github.com/wangweiSJTU/OTUR

          圖像重建是底層計(jì)算機(jī)視覺中的一個(gè)基本問題,對(duì)于后續(xù)的許多高層任務(wù)至關(guān)重要。在過去的幾年里,隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和大量成對(duì)訓(xùn)練數(shù)據(jù)集的構(gòu)建,圖像重建任務(wù)取得了長(zhǎng)足的進(jìn)展。然而,在許多實(shí)際應(yīng)用中,難以收集足夠的干凈圖像進(jìn)行監(jiān)督學(xué)習(xí),雖然可以使用合成數(shù)據(jù)進(jìn)行代替,但真實(shí)數(shù)據(jù)與合成數(shù)據(jù)之間的差異將從根本上限制重建模型在真實(shí)場(chǎng)景上的性能。如圖1所示,ToF深度相機(jī)采集的原始深度圖像包含大量復(fù)雜噪聲,如圖中紅色部分為無效值,同時(shí)真實(shí)場(chǎng)景的高質(zhì)量3D成像難以獲得。在此類復(fù)雜噪聲的真實(shí)場(chǎng)景下,監(jiān)督學(xué)習(xí)方法無法適用。

          圖1 真實(shí)原始ToF深度圖像

          近年來,自監(jiān)督和無監(jiān)督圖像重建學(xué)習(xí)取得了很大進(jìn)展。然而,現(xiàn)有的方法或多或少地依賴于對(duì)圖像和退化模型的一些先驗(yàn)假設(shè),這限制了它們?cè)谡鎸?shí)數(shù)據(jù)上的表現(xiàn)。如何在沒有任何退化模型先驗(yàn)知識(shí)的情況下構(gòu)造無監(jiān)督重建學(xué)習(xí)的最優(yōu)準(zhǔn)則仍然是一個(gè)懸而未決的問題。為了回答這個(gè)問題,上海交通大學(xué)類腦智能應(yīng)用技術(shù)研究中心團(tuán)隊(duì)最近提出了一種基于最優(yōu)傳輸理論的無監(jiān)督重建學(xué)習(xí)框架。其將圖像重建視為從真實(shí)帶噪分布到干凈分布的一個(gè)傳輸問題,基于最優(yōu)傳輸理論,在實(shí)現(xiàn)高感知質(zhì)量重建的同時(shí),可以最大限度地保留信號(hào)的信息。在多種仿真和真實(shí)場(chǎng)景下的實(shí)驗(yàn)表明,該方法在取得接近有監(jiān)督學(xué)習(xí)方法的峰值信噪比的同時(shí),可以獲得更好的感知質(zhì)量。

          本項(xiàng)工作的主要貢獻(xiàn)有:

          1. 提出一種基于最優(yōu)傳輸理論的無監(jiān)督重建學(xué)習(xí)準(zhǔn)則,在重建輸出與干凈自然樣本具有相同分布的約束下,最小化輸入和重建輸出之間的傳輸成本。
          2. 將該準(zhǔn)則與理想有監(jiān)督準(zhǔn)則進(jìn)行了對(duì)比分析,表明該準(zhǔn)則在實(shí)現(xiàn)高感知質(zhì)量重建的同時(shí),能夠最大程度地保留原始圖像的信息。
          3. 在實(shí)際訓(xùn)練實(shí)現(xiàn)中需要把該帶約束的最優(yōu)傳輸準(zhǔn)則松弛為無約束的形式,以方便基于對(duì)抗訓(xùn)練進(jìn)行學(xué)習(xí)。本文在理論上證明了:對(duì)于Wasserstein-1距離,該松弛不影響最有傳輸?shù)淖顑?yōu)解,即松弛后與原始準(zhǔn)則具有相同的最優(yōu)解。
          4. 將新方法應(yīng)用于多種去噪應(yīng)用,包括不同仿真噪聲下的合成圖像,以及真實(shí)世界的手機(jī)攝影、顯微鏡、深度圖像。結(jié)果表明,新方法在取得逼近有監(jiān)督學(xué)習(xí)方法的失真度量(PSNR,SSIM)的同時(shí),具有更好的重建感知質(zhì)量。特別地,在去除帶有復(fù)雜噪聲的原始深度圖像實(shí)驗(yàn)中,新方法表現(xiàn)出了非常大的優(yōu)越性。

          理論和方法介紹

          理想的有監(jiān)督學(xué)習(xí)準(zhǔn)則

          圖像的退化和重建過程如圖 3 所示,其中 為干凈圖像, 為退化后的圖像, 為網(wǎng)絡(luò)重 建后的圖像, 為重建的網(wǎng)絡(luò)模型。

          圖3 圖像重建問題

          對(duì)于去噪任務(wù)而言,退化模型可以表示為

          其中 為噪聲。該加性噪聲模型會(huì)在之后的信息論相關(guān)分析中會(huì)用到,但本文所提方法并不假設(shè)噪聲為加性模型。

          一般來說,圖像重建的理想目標(biāo)有以下三個(gè):

          1. 噪聲抑制:盡可能抑制 中的噪聲;
          2. 最大信息保留: 盡可能保留 中包含的原始信號(hào)的信息;
          3. 高感知質(zhì)量重建:在重建中實(shí)現(xiàn)高感知質(zhì)量,圖像感知質(zhì)量是指從人的主觀視覺判斷重建圖像看起來像干凈自然圖像的程度,根據(jù)現(xiàn)有研究,失真度量(如PSNR、SSIM)與感知質(zhì)量之間存在一個(gè)權(quán)衡取舍,即提升感知質(zhì)量會(huì)導(dǎo)致重建失真的上升。

          因此有監(jiān)督學(xué)習(xí)下圖像重建的理想準(zhǔn)則可以表示為:

          其中 表示分布間的散度。該準(zhǔn)則在約束重建圖像 與干凈圖像 間分布相同的條件 下,最大化保留重建圖像 之間的互信息。

          基于最優(yōu)傳輸理論的無監(jiān)督圖像去噪最優(yōu)準(zhǔn)則

          最優(yōu)傳輸問題旨在找到將一種質(zhì)量分布轉(zhuǎn)換為另一種質(zhì)量分布的最有效傳輸映射,同時(shí)最小化傳輸成本,其在信號(hào)處理、圖像處理和機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用。

          假設(shè) 上的兩組概率測(cè)度,設(shè) 是一個(gè)代價(jià)函數(shù),衡量將 傳輸?shù)? 的代價(jià)。最優(yōu)傳輸問題的目標(biāo)就是尋找將 傳輸?shù)? 代價(jià)最小的傳輸映射。

          其中傳輸映射(transport map)的定義如下:

          Monge在1781年提出的最優(yōu)傳輸問題定義如下:

          本質(zhì)上,圖像重建問題可以視為一個(gè)最優(yōu)傳輸問題,即尋找?guī)г雸D像分布到干凈圖像分布的最優(yōu)傳輸函數(shù)。因此,提出無監(jiān)督下的重建學(xué)習(xí)準(zhǔn)則:

          其中,可以發(fā)現(xiàn)問題(7)是上述最優(yōu)傳輸問題的一種實(shí)現(xiàn)。

          看似準(zhǔn)則(7)違背直覺,因?yàn)樗鼘⒅亟繕?biāo)推向了帶噪輸入,但是深入分析后會(huì)發(fā)現(xiàn),該問題旨在尋找一個(gè)滿足以下條件的重建映射 :

          1. 高感知質(zhì)量重建: 約束 ,確保重建圖像 與干凈樣本 有相同的分布,因此可以保證生成圖像具有良好的感知質(zhì)量。
          2. 最小傳輸成本:?jiǎn)栴}(7)中使用觀測(cè)值 來確保重建的保真度,具有最小傳輸特性,之后會(huì)證明該特性使重建映射實(shí)現(xiàn)了對(duì) 中包含的 的信息的最大保留。

          為了便于實(shí)現(xiàn),我們將帶約束問題(7)松弛為無約束的形式:

          雖然進(jìn)行了松弛,本文證明了:當(dāng) 為 Wasserstein-1 距離,且 時(shí),問題 有相同的最優(yōu)解,具體定理如下:

          該定理的具體證明過程可以在原論文中找到。

          從信息論角度看所提出準(zhǔn)則

          這一部分,將從信息論角度出發(fā),來證明所提出的準(zhǔn)則(7)找到的重構(gòu)映射 可以近似地最大限度保留 中包含的 的信息。

          首先,(2)給出了理想的有監(jiān)督學(xué)習(xí)準(zhǔn)則,該準(zhǔn)則在最大化 之間互信息的同時(shí)實(shí)現(xiàn)了感知重建。在實(shí)際應(yīng)用中,除了某些簡(jiǎn)單的特定數(shù)據(jù)分布,互信息難以顯式計(jì)算,因此 MSE 被廣泛用作重建損失,其中有監(jiān)督準(zhǔn)則(2)的實(shí)現(xiàn)可以寫成:

          當(dāng) 為高斯分布時(shí), 等價(jià)于最大化 的互信息,因此當(dāng) 時(shí),所提出的無監(jiān)督學(xué)習(xí)準(zhǔn)則(7)可以視為高斯分布下無監(jiān)督學(xué)習(xí)的信息論準(zhǔn)則的特例。

          同時(shí)我們證明了,當(dāng) 與噪聲無關(guān), 均為高斯分布時(shí),(16)則等價(jià)于(2), 時(shí)(7)等價(jià)于(15),即所提出無監(jiān)督學(xué)習(xí)準(zhǔn)則在特定條件下等價(jià)于監(jiān)督學(xué)習(xí)準(zhǔn)則。

          具體證明過程請(qǐng)參考原論文。

          需要注意的是,從馬爾科夫鏈 可以得到不等式: ,此時(shí) 的上界。如果重建映射 能夠完美地抑制噪聲 (即 無關(guān)),則可以通過最大化互信息 來最大限度地保留 中包含的 的信息。在大多數(shù)應(yīng)用中,干凈數(shù)據(jù) 與噪聲 無關(guān)的假設(shè)是合理的。然而,重建 和噪聲 之間獨(dú)立的假設(shè)是不切實(shí)際的,因?yàn)椴荒鼙WC觀測(cè) 中的噪聲分量被完全抑制。實(shí)際上,當(dāng)去噪過程 能夠在很大程度上抑制 中的噪聲分量時(shí), 之間的相關(guān)性將很弱。在這種情況下,無監(jiān)督準(zhǔn)則(16)可以被視為理想的有監(jiān)督準(zhǔn)則(2)的近似。

          實(shí)驗(yàn)

          本節(jié)中使用WGAN-gp對(duì)所提出準(zhǔn)則進(jìn)行實(shí)現(xiàn),其中生成器結(jié)構(gòu)如圖3所示,鑒別器結(jié)構(gòu)如圖4所示。其中生成器主體結(jié)構(gòu)為U-Net架構(gòu),它由編碼器中的兩個(gè)下采樣CNN層和解碼器中的兩個(gè)上采樣CNN層組成。殘差通道注意力模塊(RCAB)被用于每個(gè)下采樣和上采樣層來增強(qiáng)網(wǎng)絡(luò)的生成能力。我們?cè)诜抡鍾GB圖像、仿真深度圖像、真實(shí)顯微鏡圖像、真實(shí)手機(jī)攝影圖像、真實(shí)深度圖像和真實(shí)原始深度圖像上均進(jìn)行了實(shí)驗(yàn)測(cè)試,并與當(dāng)前最佳的一些監(jiān)督學(xué)習(xí)、自監(jiān)督和無監(jiān)督學(xué)習(xí)方法進(jìn)行了對(duì)比,此處因篇幅限制僅挑選部分進(jìn)行展示,具體內(nèi)容可參考原論文。

          測(cè)試中使用了PSNR和SSIM作為失真度量指標(biāo),Perception Index (PI)和Learned Perceptual Image Patch Similarity (LPIPS)作為感知質(zhì)量指標(biāo)。

          圖3 生成器結(jié)構(gòu)
          圖4 鑒別器結(jié)構(gòu)

          1.仿真噪聲下RGB圖像降噪

          首先是仿真噪聲去除實(shí)驗(yàn),所測(cè)試的合成噪聲類型包括加性高斯噪聲、泊松噪聲和布朗高斯噪聲,其中布朗高斯噪聲是使用一個(gè)核大小為5*5的高斯濾波器過濾標(biāo)準(zhǔn)差為50的高斯噪聲得到的。使用了BSDS500作為訓(xùn)練數(shù)據(jù)集,KODAK24作為測(cè)試數(shù)據(jù)集,表1和表2分別為失真度量和感知質(zhì)量測(cè)試結(jié)果,對(duì)于空間獨(dú)立的高斯噪聲和泊松噪聲,所提出方法比監(jiān)督學(xué)習(xí)方法PSNR低1dB左右,而在空間相關(guān)的布朗高斯噪聲中,所提出方法取得了最佳的PSNR,此外在所有噪聲中,所提出方法均獲得了最佳的PI/LPIPS分?jǐn)?shù),這表明其可以得到最佳的感知質(zhì)量。如圖5所示,所提出方法比DnCNN、N2C、N2N、N2V和BM3D具有更好的感知質(zhì)量,因?yàn)樗A袅烁嗟募?xì)節(jié)信息。

          表1 失真度量(PSNR/SSIM)測(cè)試結(jié)果
          表2 感知質(zhì)量(PI/LPIPS)測(cè)試結(jié)果
          圖5 不同仿真噪聲下圖像去噪的視覺比較,括號(hào)中為圖像的PSNR/PI/LPIPS分?jǐn)?shù)

          2.真實(shí)顯微鏡圖像

          顯微鏡圖像是生物學(xué)和醫(yī)學(xué)研究的重要數(shù)據(jù)來源,然而,由于采集過程中的照明和設(shè)備等因素,顯微鏡圖像不可避免地會(huì)受到噪聲的破壞,從而影響后續(xù)的高精度分析。此外,由于沒有干凈的參考圖像,因此需要無監(jiān)督或自監(jiān)督的方法。該測(cè)試中使用了真實(shí)熒光鏡圖像數(shù)據(jù)集FMD進(jìn)行訓(xùn)練和測(cè)試。其中使用平均的方法獲取近似的Ground Truth。表3展示了真實(shí)顯微鏡圖像上的定量比較,所提出方法獲得了最高的PSNR、最佳PI和LPIPS分?jǐn)?shù),如圖6所示,所提出方法可以獲得比其他方法更清晰的重建結(jié)果,這表明了其更好的感知質(zhì)量。

          表3 真實(shí)顯微鏡圖像定量比較
          圖6 真實(shí)顯微鏡圖像去噪的視覺比較,括號(hào)中為圖像的PSNR/PI/LPIPS分?jǐn)?shù)

          3.真實(shí)深度圖像

          最近,深度相機(jī)變得越來越流行,而由于成像機(jī)理的不同,深度圖像的噪聲比RGB圖像大得多。此外,由于場(chǎng)景中對(duì)象的反射率和透明度較低,深度圖像中通常存在空洞(無效像素)。該實(shí)驗(yàn)中使用了一臺(tái)ToF深度相機(jī)采集了1430張?jiān)忌疃葓D像作為訓(xùn)練和測(cè)試集,并使用仿真的SUNCG數(shù)據(jù)集作為參考的干凈圖像。圖7展示了重建結(jié)果的視覺比較,所提出方法可以取得最佳的去噪結(jié)果。

          圖7 原始深度圖修復(fù)效果比較
          圖8 原始深度圖修復(fù)效果,清晰視頻demo請(qǐng)見https://ieeexplore.ieee.org/ielx7/34/4359286/9763342/supp1-3170155.mp4?arnumber=9763342

          結(jié)論

          本項(xiàng)工作在不對(duì)退化模型做任何先驗(yàn)假設(shè)的條件下,提出了一種基于最優(yōu)傳輸理論的無監(jiān)督圖像重建學(xué)習(xí)準(zhǔn)則。該準(zhǔn)則可在實(shí)現(xiàn)高感知質(zhì)量重建的同時(shí),最大程度保留原始圖像信息。此外,我們?cè)诶碚撋献C明了,實(shí)際應(yīng)用中使用的該準(zhǔn)則的松弛形式與原始準(zhǔn)則具有相同的最優(yōu)解。大量仿真和真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,該方法甚至可以與有監(jiān)督方法相媲美。該方法在具有復(fù)雜噪聲的深度圖像重建上具有非常顯著的優(yōu)越性。此外,雖然本文主要測(cè)試了所提框架在降噪任務(wù)上的表現(xiàn),但該框架理論上適用于更廣泛的圖像重建任務(wù),如超分辨、去雨、去霧等。

          公眾號(hào)后臺(tái)回復(fù)“CVPR 2022”獲取論文合集打包下載~

          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨
          極市干貨
          CVPR 2022:CVPR'22 最新132篇論文分方向整理CVPR'22 最新106篇論文分方向整理一文看盡 CVPR 2022 最新 20 篇 Oral 論文
          極市動(dòng)態(tài):光大環(huán)保與極視角正式開啟廠區(qū)智慧安防項(xiàng)目合作!極視角成為首批「青島市人工智能產(chǎn)業(yè)鏈鏈主企業(yè)」!
          最新競(jìng)賽:六大真實(shí)場(chǎng)景賽題!ECV2022極市計(jì)算機(jī)視覺開發(fā)者榜單大賽預(yù)報(bào)名開啟

          覺得有用麻煩給個(gè)在看啦~??


          瀏覽 42
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色婷婷AV国产 | 免费成人在线观看视频 | 操逼视频在线看 | 69操逼 | 人人妻人人草 |