【原】【計算攝影】計算機如何學會自動地進行圖像美學增強？

有三AI 2020-11-27

展開全文

大家好，這是專欄《計算攝影》的第四篇文章，這一個專欄來自于計算機科學與攝影藝術(shù)的交叉學科。今天我們討論的問題是如何學會做圖像增強。

作者&編輯 | 言有三

1 圖像美學增強基礎(chǔ)

1.1 什么是美學增強

一幅圖像要有更好的美感，最基本的要求就是對比度分布合理，飽和度以及色調(diào)符合圖像主題，本次我們從圖像對比度增強和色調(diào)增強兩個方面來談論自動地美學增強問題。

圖像對比度增強，即增強圖像中的有用信息，抑制無用信息，從而改善圖像的視覺效果。圖像色調(diào)增強，即改善圖像的色調(diào)效果，創(chuàng)造色彩更加豐富以及突出主題的效果。

攝影師，尤其是專業(yè)攝影師，基本上都會對拍攝的作品進行后期的圖像增強操作，包含亮度、清晰度、飽和度、對比度、色調(diào)甚至是內(nèi)容的調(diào)整操作。

上圖中展示了 6 組對比圖，其中每組的左面是原圖，右面是經(jīng)過圖像增強的圖，可以看出明顯增加了圖像的美感。

1.2 美學增強常見數(shù)據(jù)集

為了研究自動圖像增強問題，需要建立相關(guān)的數(shù)據(jù)集，目前有的數(shù)據(jù)集通過在同樣的場景下采用不同的參數(shù)配置進行拍攝，適合于靜態(tài)場景。有的則采用了不同的設(shè)備在同一個時間進行拍攝，需要進行視角的匹配，下面我們對其中使用較多的兩個數(shù)據(jù)集進行介紹。

(1) MIT-Adobe FiveK 數(shù)據(jù)集[1]

這個數(shù)據(jù)集發(fā)布于 2011 年，包含 5000 張單反相機拍攝的 RAW 格式的照片，每一張照片都被 5 個經(jīng)驗豐富的攝影師使用Adobe Lightroom工具進行后期調(diào)整，調(diào)整內(nèi)容主要是針對色調(diào)。因為該數(shù)據(jù)集包含了原圖和 5 張后期圖的成對數(shù)據(jù)，而且有同一個攝影師的多種后期修圖圖片，因此它可以被用于某一后期風格的學習。

(2) DPED 數(shù)據(jù)集[2]

這個數(shù)據(jù)集發(fā)布于 2018 年，采用了 3 個不同的手機和一個數(shù)碼相機進行拍攝然后進行圖片匹配和裁剪。三個手機分別是iPhone 3GS、BlackBerry Passport和Sony Xperia Z，相機則是 Canon 70D DSLR。該數(shù)據(jù)集覆蓋了白天的各種常見光照和天氣情況，采集時間持續(xù)3 周，都使用了自動拍攝模式。

因為 4 個設(shè)備同時進行圖像采集，所拍攝出來的圖前期不可能完全對齊，因此需要進行后處理對齊，作者們使用了 SIFT 算法對圖像進行對齊，最終成對圖之間保證不超過 5 個像素的偏差。

除了上述 2 個數(shù)據(jù)集，很多研究者在提出算法時都會自己采集相關(guān)的數(shù)據(jù)集，大家可以自己關(guān)注相關(guān)研究。

2 基于深度學習的圖像增強

傳統(tǒng)的對比度等增強方法包括伽馬變換，直方圖均衡，Retinex模型等，對參數(shù)敏感，而深度學習模型則可以從數(shù)據(jù)中進行學習，下面我們簡單說說其中的核心算法，可以從兩個方向來說。

2.1 端到端預測模型

卷積神經(jīng)網(wǎng)絡(luò)模型擁有強大的表達能力，被證明可以直接學會圖像里的很多全局和局部的操作，包括圖像風格遷移、去霧、上色、增加細節(jié)等，因此我們可以按照需要學習的類型，準備好相關(guān)的成對數(shù)據(jù)進行學習，這一類就是端到端的預測模型。

Chen Qifeng 等人[3]使用了一個基本的場景聚合模型來驗證上述操作的學習，網(wǎng)絡(luò)結(jié)構(gòu)示意圖就是常見Concext Aggregation Network,簡稱 CAN)，它最初來自于語義分割任務，使用了不同大小的帶孔卷積來實現(xiàn)同樣大小的卷積核與不同的感受野。

作者們實驗了十個常用的圖像增強操作。

(1) Rudin-Osher-Fatemi:一種圖像復原模型。

(2) TV-L1 image restoration:一種圖像復原模型。
(3) L0 smoothing:一種圖像平滑模型。
(4) relative total variation:一種通過剝離細節(jié)來提取圖像結(jié)構(gòu)的操作。

(5) image enhancement by multiscale tone manipulation:一種多尺度進行圖像增強。

(6) multiscale detail manipulation based on local Laplacian filtering:基于拉普拉斯的圖像編輯操作。

(7) photographic style transfer from a reference image:圖像風格遷移操作。

(8) dark-channel dehazing :暗通道去霧操作。
(9) nonlocal dehazing :非局部去霧操作。
(10) pencil drawing :鉛筆畫風格操作。

所有任務使用的訓練數(shù)據(jù)集都是Adobe MIT 5k，作者們首先用各類方法的官方實現(xiàn)對輸入圖進行操作，得到成對的訓練數(shù)據(jù)，然后進行有監(jiān)督的訓練。

對于這一類模型，可以從幾個方向進行改進，包括：

(1) 使用美學評估模型[4]進行反饋，以改進效果。

(2) 使用 GAN 模型[2]對生成結(jié)果的高層感知進行改進。

2.2 基于參數(shù)預測的方法

逐像素的回歸模型原理簡單，但是端到端的方法可解釋性不強，容易過擬合，圖像增強可以對應到相機中的曝光調(diào)整，對比度調(diào)整，色調(diào)調(diào)整等操作，因此研究者們提出了使用深度學習模型直接學習這幾種操作的參數(shù)幅度，一個代表性的研究如下[5]。

可以看出整個增強過程被分解為一系列的操作，包括曝光度，對比度、色度、伽馬校正等調(diào)整，因此模型需要搜索一系列的操作對輸入圖進行調(diào)整，每個操作過程對應于強化學習里的一個決策過程，通過對這些決策過程的結(jié)果進行懲罰就可以實現(xiàn)訓練，其獎勵回報就是美學分數(shù)。每一步調(diào)整的結(jié)果可以通過梯度的回傳給整個網(wǎng)絡(luò)學習，從而改變每一步的調(diào)整參數(shù)。

具體學習過程包含兩個策略網(wǎng)絡(luò)(policy network)，一個判別模型，一個價值網(wǎng)絡(luò)。其中兩個策略網(wǎng)絡(luò)分別將圖像映射成某一類操作的概率和幅度，這四個網(wǎng)絡(luò)都使用了同樣的結(jié)構(gòu)，輸入圖像大小為 64×64，包含四個卷積層和一個全連接層。

總的來說，該相機參數(shù)學習模型有以下三個優(yōu)點。

(1) 首先這是一個端到端的學習各類變換操作幅度的方法，可以處理任意大小的圖片。

(2) 使用了強化學習來給出每一步調(diào)色所做的操作，這樣對圖像的處理就不再是一個黑箱，從而方便人們對模型處理過程的理解，還可以參照模型的處理步驟和參數(shù)進行后期操作的學習。

(3) 不需要成對的圖像數(shù)據(jù)來指導模型的學習，因為學習的都是成熟的圖像處理操作的幅度，所以基本上不會產(chǎn)生非自然的瑕疵。

另外，還可以直接學習一個綜合性質(zhì)的濾波操作，如深度雙邊濾波模型[6]。

基于參數(shù)學習的模型主要問題是計算效率太低，模型訓練過程復雜。

[1] Bychkovsky V, Paris S, Chan E, et al. Learning photographic global tonal adjustment with a database of input/output image pairs[C]//CVPR 2011. IEEE, 2011: 97-104.

[2] Ignatov A, Kobyshev N, Timofte R, et al. DSLR-quality photos on mobile devices with deep convolutional networks[C]//Proceedings of the IEEE International Conference on DSLR-quality photos on mobileComputer Vision. 2017: 3277-3285.

[3] Chen Q, Xu J, Koltun V. Fast image processing with fully-convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2497-2506.

[4] Talebi H, Milanfar P. Learned perceptual image enhancement[C]//2018 IEEE International Conference on Computational Photography (ICCP). IEEE, 2018: 1-13.

[5] Hu Y, He H, Xu C, et al. Exposure: A white-box photo post-processing framework[J]. ACM Transactions on Graphics (TOG), 2018, 37(2): 26.

[6] Gharbi M, Chen J, Barron J T, et al. Deep bilateral learning for real-timeimage enhancement[J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 118.

總結(jié)

與美學評估問題相似，圖像增強是一個比較主觀的問題，沒有一對一的標準答案，甚至因為人群的審美而產(chǎn)生非常大的差異，這是一個目前還沒有取得非常好的工業(yè)級應用的領(lǐng)域。

有三AI秋季劃-圖像質(zhì)量圖