計算機視覺 || 基于深度學習的圖像美學評分(文末送書)
1 圖像美學基礎
1.1 美學的定義
牛津高階英語詞典將美學定義為:“concerned with beauty and art and the understanding of beautiful things, and made in an artistic way and beautiful to look at?!?/span>
所謂圖像美學,其實就是研究視覺感知美的度量,又可稱為計算機美學,對應的英文描述包括computer aesthetics,photo aesthetics等。
圖像美學與圖像的顏色、光影、構圖、虛實等因素密不可分,并與圖像的語義內(nèi)容也很相關。鑒于美學的抽象性和主觀性,即使專業(yè)攝影師也難以說明哪些特征對圖像的美學質量影響更大。雖然美學難以描述,但攝影師們?nèi)匀豢偨Y出了一些通用的攝影規(guī)則和技術來調(diào)整圖像的顏色、光照、構圖、景深等因素來獲得更具有視覺吸引力的圖像,也就是美學質量更高的圖像。
1.2 圖像美學的應用
圖像美學質量評價在許多應用中顯示出了越來越重要的作用,如圖像檢索、照片增強、相冊管理等。
(1) 圖像檢索
當前圖像搜索引擎根據(jù)用戶的查詢檢索到大量的相關結果,然而位于前面的搜索結果有時候不具有視覺吸引力。在這種情況下,用戶需要瀏覽更多結果以找到與檢索內(nèi)容相關又具有視覺吸引力的結果,尤其是在攝影網(wǎng)站。

(2) 自動照片增強
用戶進行后期編輯如果想要得到更具視覺吸引力的圖像,通常需要有一定的攝影和美學知識。對普通用戶來說,他們往往不清楚哪些元素需要修改以及如何修改它們才能使圖像更具吸引力。在這種情況下,自動增強圖像美學質量的自動照片編輯工具是非常有用的。一個常見的實現(xiàn)方法是在兩個圖像編輯操作之間進行迭代并評估美學質量,直到選擇最好的。

(3) 照片篩選以及相冊管理
個人照片數(shù)量激增產(chǎn)生了一個問題:手動管理大量照片會很耗時,因此開發(fā)自動有效的照片選擇和管理工具是很有必要的。一般人選擇照片的過程會依據(jù)美學標準進行,因此美學質量評價在其中有著重要的作用。

由此可見,圖像美學質量評價算法已經(jīng)滲透到了人們生活的各個方面。
2 美學問題與數(shù)據(jù)集
接下來我們來講述如何研究美學這個問題,包括數(shù)據(jù)集以及不同的研究維度。
2.1 美學數(shù)據(jù)集
由于美學的主觀性較強,創(chuàng)建一個帶有主觀美學標簽的數(shù)據(jù)集難度是很大的,但圖像美學質量評價基準數(shù)據(jù)集的構建是該方向研究的關鍵前提條件。
下面介紹幾個常用的圖像美學數(shù)據(jù)集。
(1) The CUHK-Photo Quality (CUHK-PQ)
這個數(shù)據(jù)集包含從 DPChallenge.com 上收集的 17690 張圖片,每張圖片都有8-10個人為其標注為高質量或低質量的標簽,圖片被分組成 7 個場景類別,即“動物”“植物”“靜物”“建筑”“風景”“人物”和“夜景”。

CUHK-PQ數(shù)據(jù)集里高質量的圖片是從專業(yè)的攝影網(wǎng)上獲取,而低質量的圖片則是由在校學生提供。
(2) The Photo.Net dataset
PN數(shù)據(jù)集包含20278張圖片,圖片均來自于社交網(wǎng)絡https://www.photo.net/。每張圖片由社交網(wǎng)絡的在線用戶進行評分,評分范圍從 0 到 7,7 為最美觀的照片,每張圖片均有兩個及以上的用戶對其進行評分。

(3) The Aesthetic Visual Analysis (AVA) dataset
AVA數(shù)據(jù)集包含255000張圖片,這些照片是http://DPChallenge.com上獲取的。每張圖片由78~549名評分者得分,分數(shù)范圍為1到10,平均分作為每張圖片的真值標簽。
數(shù)據(jù)集作者根據(jù)每張圖片的本文信息,為每張圖片都標注了1至2個語義標簽。整個數(shù)據(jù)集總共有66種文本形式的語義標簽。出現(xiàn)頻率較高的語義標簽有:Nature,Black and White,Landscape,still-life等。
AVA數(shù)據(jù)集中的圖片還做了攝影屬性標注,一共有14個攝影屬性,分別是Complementary Colors ( 補色 ), Duotones ( 雙色調(diào) ), High Dynamic Range ( 高對比度 ), Image Grain ( 紋理圖 ), Light on White ( 亮白 ), Long Exposure ( 長曝光 ), Macro ( 微距 ), Motion Blur ( 運動模糊 ), Negative Image ( 負片 ), Rule of Thirds ( 三分法 ), Shallow DOF ( 淺景深 ), Silhouettes ( 剪影 ), Soft Focus ( 軟焦 ), Vanishing Point ( 消失點 )。
下圖為AVA數(shù)據(jù)集中的示例圖像(綠色框內(nèi)平均分大于5的圖像,紅色框內(nèi)為平均分小于5的圖像,兩個框內(nèi)右邊的圖像都是平均分在5左右的)及圖像數(shù)量分布。

(4) The Aesthetic and Attributes DataBase (AADB)
AADB是 2016 年 Adobe 整理的數(shù)據(jù)集,可以說是 AVA 數(shù)據(jù)集的一個補充。該數(shù)據(jù)集有 10000張圖像 , 其中 8500 張圖像用于訓練,500 張圖像用于驗證,1000 張圖像用于測試。標注者有 5 個人,最終的結果取5個人的平均值,除了標注美學分數(shù)外,也標注了11個屬性,分別是:balancing elemen(t 是否有平衡元素),content(是否有好的內(nèi)容),color harmony(顏色和諧性),depth of field(是否淺景深),lighting(是否有好的用光),motion blur(是否運動模糊),object emphasis(前景是否突出),rule of thirds(是否使用三分法),vivid color(豐富的顏色),repetition(有沒有重復模式),symmetry(是否有對稱性),下圖是一些示意圖。

(5) AVA-Reviews
2018 年復旦大學的 Wang 等人利用 AVA 數(shù)據(jù)集構建了 AVA-Reviews 數(shù)據(jù)集,包含了 AVA數(shù)據(jù)集中的 4 萬幅圖像,每幅圖像跟隨了 6 條語言評論,該文獻利用 CNN 與循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)相結合的神經(jīng)網(wǎng)絡結構同時預測圖像的美學分類與語言評論。

2.2 美學的研究維度
美學的研究可以是分類問題,回歸問題,以及排序問題。
最簡單的情況下,美學評估被看做二分類問題,即將圖像分為“高美學質量”和“低美學質量”,然后使用分類器進行學習。
如下圖第一排依次為高質量的動物圖,植物圖,建筑圖,風光圖,夜景圖,第二排為低質量的動物圖,植物圖,建筑圖,風光圖,夜景圖。

美學分類問題
雖然分類問題比較簡單,但我們更理想的目標是讓計算機像人類一樣預測美學分數(shù)。在一些應用中,需要按照美學分數(shù)將圖像排序,這時候我們需要得到更精細的美學得分而不是美學質量的粗粒度分類。
以 5 分為滿分,‘◆’表示得一分,下圖展示了美學評分的案例。

美學回歸問題
判斷單張圖片的美學類別或者美學分數(shù)是比較困難的,訓練出來的模型也容易過擬合,然而比較兩張圖片的相對美學,即一張圖是否比另一張圖更加好看,這更加簡單,也更加符合人類的常識。

美學排序問題
3 美學評估方法
接下來我們主要從傳統(tǒng)的方法和深度學習方法兩個維度來介紹美學評估方法。
3.1 傳統(tǒng)方法
對于傳統(tǒng)方法,我們介紹其中具有代表性的兩個特征,分別是顏色特征,構圖特征等。
(1) 顏色特征
出色的攝影作品通常色調(diào)都非常簡潔和諧,這樣可以突出主要對象,而業(yè)余人士拍攝的照片通常看起來混亂,基于此研究人員提出過顏色和諧性等特征。另外攝影中色調(diào)常遵循單一色調(diào)、互補色,相鄰色等原理,如下圖。

因此可以采用平均顏色,顏色直方圖等作為特征。
(2) 構圖特征
除了顏色和光照會影響圖像的吸引力,對象的位置及其空間相互關系在圖像的美學質量中也起著重要作用。專業(yè)的攝影師有著豐富的構圖知識和技術。若保持對象的完整形狀,只是改變其空間位置,圖像的美學質量也會有很大變化。很多構圖特征都是受攝影規(guī)則啟發(fā),如黃金分割法則、視覺平衡等,其中最廣泛使用的是三分構圖法則。

上圖展示的是一幅符合三分構圖法的圖片,圖中三條白線均勻將圖像劃分為三份,四個角則是交叉點,滿足三份構圖法的圖中最重要的主體會接近三條白線或者 4 個角,所以我們可以用主體偏離位置來作為構圖特征。
由于傳統(tǒng)的特征提取方法受限于專家知識和特征的表達能力,甚至有一些攝影知識難以用數(shù)學來描述,當前更好的做法是基于深度學習技術從數(shù)據(jù)集中自動學習美學相關特征。
3.2 深度學習方法
在前面我們給大家介紹過,美學評估問題可以作為分類問題,回歸問題,排序問題來進行研究,下面我們分別對這三類模型的發(fā)展進行簡單介紹。
(1) 分類模型
分類模型可以直接采用通用的圖像分類任務模型,由于美學數(shù)據(jù)集較小,可以采用預訓練的方式。
另外,還可以使用模型本身的多尺度信息,即融合不同層,不同感受野大小的特征來獲取全局和局部的特征,這在圖像分割模型 UNet 和目標檢測模型 SSD 中被證明可以有效改進模型的學習能力。
為了獲得更好的結果,Lu 等人提出了 RAPID 模型[1],它們將全局和局部 CNN 堆疊在一起形成雙列CNN(DCNN),分別輸入全圖和局部圖。全局圖有利于捕捉主體信息,而局部圖有利于捕捉局部細節(jié)。

而在 DMA-net(Deep Multi-Patch Aggregation Network) [2]中作者更進一步,將來自多個隨機采樣的圖像塊被送入包含 4 個卷積層和 3 個全連接層的單路卷積神經(jīng)網(wǎng)絡。為了組合來自采樣圖像塊的特征輸出,設計了一個統(tǒng)計聚集結構 (odderless multi-patch aggregation), 在這個結構中使用了最小,最大,中值和平均池化方法對 CNN 的特征進行聚合,最后輸出 Softmax 概率到分類層。

此外為了避免縮放變形,Mai 等人[3]借鑒 SPPNet 中的自適應空間池化技術,在最后的卷積層之后,使用了多路不同感受野大小的固定長度的輸出,不僅有效地編碼了多尺度圖像信息,還可以在訓練和測試時適應任意大小的輸入。

基于分類的模型所處理的任務簡單,不過因為數(shù)據(jù)標注中的差異以及數(shù)據(jù)量的問題,模型容易產(chǎn)生過擬合。
(2) 回歸模型
一個基本的回歸模型與上述的分類模型結構一致,只是標簽和預測結果值由美學分類類別換成了具體的分數(shù)值,優(yōu)化目標由交叉熵損失換成了歐式距離等損失。
另一方面,預測一個具體的美學分數(shù)很容易過擬合,因為不同人的標注結果有很大差異。在 AVA 數(shù)據(jù)集中,一張圖像的標注結果由多個人完成,因此標注結果是一個分布,而不是單一的值,下面兩張圖的平均分數(shù)相同,但是分布有較大差異。

基于這個特點,谷歌的研究團隊提出了 NIMA 系統(tǒng)[4],它預測美學的分數(shù)分布概率,分數(shù)值從 1 到 10。
后續(xù)研究者也按照類似的思路去研究該問題,其基本結構流程圖如下:

(3) 排序模型
前面說過判斷單張圖片的美學類別或者美學分數(shù)是比較困難的,然而比較兩張圖片的相對美學相對容易,因此排序模型[5]也是一種研究美學的方案,基本結構如下:

其中基礎網(wǎng)絡在美學數(shù)據(jù)集上預訓練并進行微調(diào),使用歐式距離作為優(yōu)化目標損失,預測結果是分數(shù)。然后Siamese 網(wǎng)絡對每個采樣圖像對的損失進行排序。
以上就是美學評估的基本模型,關于更多美學模型的解讀,讀者可以閱讀 Deng Yubin 等人在 2017 年撰寫的圖像美學評估綜述,《Image Aesthetic Assessment:An Experimental Survey》[6],以及學術界和工業(yè)界近年來的發(fā)展。
當前美學評分還面臨著一些難題。
(1) 美學的主觀性決定了圖像美學質量評價是一個非常具有挑戰(zhàn)性的任務。到目前為止,在圖像美學評估方面涌現(xiàn)出了很多具有競爭力的模型,但是這個領域的研究狀況還遠未達到飽和。人工設計的美學特征很難被量化,也不夠全面。深度學習方法具有強大的自動特征學習能力,成為現(xiàn)階段圖像美學質量評價的主流方法,但是如何學習到對適應各種風格的模型仍然是一個挑戰(zhàn)。
(2) 將深度學習方法應用于圖像美學質量評價面臨的挑戰(zhàn)還包括圖像美學真值標簽的模糊性以及如何從有限的輔助信息中學習特定類別的圖像美學。圖像美學評估需要具有更豐富注釋的、規(guī)模更大的數(shù)據(jù)庫,其中每個圖像最好由具有不同背景的、數(shù)量更多的用戶標記。這樣一個龐大而又多樣化的數(shù)據(jù)集將有大大推動未來圖像美學質量評價模型的學習。
(3) 人的審美終究是有差異的,如何學習到個性化的審美也是一個必須解決的問題。
[1] Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[C]. acm multimedia, 2014: 457-466.
[2] L u X, Lin Z, Shen X, et al. Deep Multi-patch Aggregation Network for Image Style, Aesthetics, and Quality Estimation[C]. international conference on computer vision, 2015: 990-998.
[3] M ai L, Jin H, Liu F, et al. Composition-Preserving Deep Photo Aesthetics Assessment[C]. computer vision and pattern recognition, 2016: 497-506.
[4] T alebi H, Milanfar P. Nima: Neural image assessment[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3998-4011.
[5] Kong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J].
european conference on computer vision, 2016: 662-679.
[6] D eng Y, Loy C C, Tang X. Image aesthetic assessment: An experimental survey[J]. IEEE Signal Processing Magazine, 2017, 34(4): 80-106.
美學評估仍然是一個比較開放且或許永遠沒有標準答案的問題,但仍然有不少研究者對其保持著熱情,因為讓計算機能夠像人一樣理解美是一件非常有意思的事情。
最后,有三AI關于計算攝影與深度學習的新書《深度學習之攝影圖像處理》已經(jīng)正式上市了,本書內(nèi)容涉及攝影學、計算機視覺、深度學習3個領域,系統(tǒng)地介紹了計算機視覺在圖像質量和攝影學各個領域的核心算法和應用,包括傳統(tǒng)的圖像處理算法和深度學習核心算法。本書理論知識體系完備,同時提供大量實例,供讀者實戰(zhàn)演練。本書融合攝影學和計算機視覺的內(nèi)容,覆蓋面非常廣。
本書既可以作為核心算法教程用于學習理論知識,也可以作為工程參考手冊用于查閱相關技術。有三AI聯(lián)合機器學習實驗室,特意送三本《深度學習之攝影圖像處理》以及三副有三AI深度學習撲克牌。
本文留言點贊數(shù)前三的朋友將分別獲得一本《深度學習之攝影圖像處理》和一副深度學習撲克牌。想要的讀者抓緊時間留言,截止到下周一(26號)晚10點。

