大家好,這是專欄《計算攝影》的第四篇文章,這一個專欄來自于計算機科學與攝影藝術(shù)的交叉學科。今天我們討論的問題是如何學會做圖像增強。 作者&編輯 | 言有三 1 圖像美學增強基礎(chǔ) 1.1 什么是美學增強 一幅圖像要有更好的美感,最基本的要求就是對比度分布合理,飽和度以及色調(diào)符合圖像主題,本次我們從圖像對比度增強和色調(diào)增強兩個方面來談論自動地美學增強問題。 圖像對比度增強,即增強圖像中的有用信息,抑制無用信息,從而改善圖像的視覺效果。圖像色調(diào)增強,即改善圖像的色調(diào)效果,創(chuàng)造色彩更加豐富以及突出主題的效果。 攝影師,尤其是專業(yè)攝影師,基本上都會對拍攝的作品進行后期的圖像增強操作,包含亮度、清晰度、飽和度、對比度、色調(diào)甚至是內(nèi)容的調(diào)整操作。 上圖中展示了 6 組對比圖,其中每組的左面是原圖,右面是經(jīng)過圖像增強的圖,可以看出明顯增加了圖像的美感。 1.2 美學增強常見數(shù)據(jù)集 為了研究自動圖像增強問題,需要建立相關(guān)的數(shù)據(jù)集,目前有的數(shù)據(jù)集通過在同樣的場景下采用不同的參數(shù)配置進行拍攝,適合于靜態(tài)場景。有的則采用了不同的設(shè)備在同一個時間進行拍攝,需要進行視角的匹配,下面我們對其中使用較多的兩個數(shù)據(jù)集進行介紹。 (1) MIT-Adobe FiveK 數(shù)據(jù)集[1] 這個數(shù)據(jù)集發(fā)布于 2011 年,包含 5000 張單反相機拍攝的 RAW 格式的照片,每一張照片都被 5 個經(jīng)驗豐富的攝影師使用Adobe Lightroom工具進行后期調(diào)整,調(diào)整內(nèi)容主要是針對色調(diào)。因為該數(shù)據(jù)集包含了原圖和 5 張后期圖的成對數(shù)據(jù),而且有同一個攝影師的多種后期修圖圖片,因此它可以被用于某一后期風格的學習。 (2) DPED 數(shù)據(jù)集[2] 這個數(shù)據(jù)集發(fā)布于 2018 年,采用了 3 個不同的手機和一個數(shù)碼相機進行拍攝然后進行圖片匹配和裁剪。三個手機分別是iPhone 3GS、BlackBerry Passport和Sony Xperia Z,相機則是 Canon 70D DSLR。該數(shù)據(jù)集覆蓋了白天的各種常見光照和天氣情況,采集時間持續(xù)3 周,都使用了自動拍攝模式。 因為 4 個設(shè)備同時進行圖像采集,所拍攝出來的圖前期不可能完全對齊,因此需要進行后處理對齊,作者們使用了 SIFT 算法對圖像進行對齊,最終成對圖之間保證不超過 5 個像素的偏差。 除了上述 2 個數(shù)據(jù)集,很多研究者在提出算法時都會自己采集相關(guān)的數(shù)據(jù)集,大家可以自己關(guān)注相關(guān)研究。 2 基于深度學習的圖像增強 傳統(tǒng)的對比度等增強方法包括伽馬變換,直方圖均衡,Retinex模型等,對參數(shù)敏感,而深度學習模型則可以從數(shù)據(jù)中進行學習,下面我們簡單說說其中的核心算法,可以從兩個方向來說。 2.1 端到端預測模型 卷積神經(jīng)網(wǎng)絡(luò)模型擁有強大的表達能力,被證明可以直接學會圖像里的很多全局和局部的操作,包括圖像風格遷移、去霧、上色、增加細節(jié)等,因此我們可以按照需要學習的類型,準備好相關(guān)的成對數(shù)據(jù)進行學習,這一類就是端到端的預測模型。 Chen Qifeng 等人[3]使用了一個基本的場景聚合模型來驗證上述操作的學習,網(wǎng)絡(luò)結(jié)構(gòu)示意圖就是常見Concext Aggregation Network,簡稱 CAN),它最初來自于語義分割任務,使用了不同大小的帶孔卷積來實現(xiàn)同樣大小的卷積核與不同的感受野。 作者們實驗了十個常用的圖像增強操作。 (1) Rudin-Osher-Fatemi:一種圖像復原模型。 (2) TV-L1 image restoration:一種圖像復原模型。 (5) image enhancement by multiscale tone manipulation:一種多尺度進行圖像增強。 (6) multiscale detail manipulation based on local Laplacian filtering:基于拉普拉斯的圖像編輯操作。 (7) photographic style transfer from a reference image:圖像風格遷移操作。 (8) dark-channel dehazing :暗通道去霧操作。 所有任務使用的訓練數(shù)據(jù)集都是Adobe MIT 5k,作者們首先用各類方法的官方實現(xiàn)對輸入圖進行操作,得到成對的訓練數(shù)據(jù),然后進行有監(jiān)督的訓練。 對于這一類模型,可以從幾個方向進行改進,包括: (1) 使用美學評估模型[4]進行反饋,以改進效果。 (2) 使用 GAN 模型[2]對生成結(jié)果的高層感知進行改進。 2.2 基于參數(shù)預測的方法 逐像素的回歸模型原理簡單,但是端到端的方法可解釋性不強,容易過擬合,圖像增強可以對應到相機中的曝光調(diào)整,對比度調(diào)整,色調(diào)調(diào)整等操作,因此研究者們提出了使用深度學習模型直接學習這幾種操作的參數(shù)幅度,一個代表性的研究如下[5]。 可以看出整個增強過程被分解為一系列的操作,包括曝光度,對比度、色度、伽馬校正等調(diào)整,因此模型需要搜索一系列的操作對輸入圖進行調(diào)整,每個操作過程對應于強化學習里的一個決策過程,通過對這些決策過程的結(jié)果進行懲罰就可以實現(xiàn)訓練,其獎勵回報就是美學分數(shù)。每一步調(diào)整的結(jié)果可以通過梯度的回傳給整個網(wǎng)絡(luò)學習,從而改變每一步的調(diào)整參數(shù)。 具體學習過程包含兩個策略網(wǎng)絡(luò)(policy network),一個判別模型,一個價值網(wǎng)絡(luò)。其中兩個策略網(wǎng)絡(luò)分別將圖像映射成某一類操作的概率和幅度,這四個網(wǎng)絡(luò)都使用了同樣的結(jié)構(gòu),輸入圖像大小為 64×64,包含四個卷積層和一個全連接層。 總的來說,該相機參數(shù)學習模型有以下三個優(yōu)點。 (1) 首先這是一個端到端的學習各類變換操作幅度的方法,可以處理任意大小的圖片。 (2) 使用了強化學習來給出每一步調(diào)色所做的操作,這樣對圖像的處理就不再是一個黑箱,從而方便人們對模型處理過程的理解,還可以參照模型的處理步驟和參數(shù)進行后期操作的學習。 (3) 不需要成對的圖像數(shù)據(jù)來指導模型的學習,因為學習的都是成熟的圖像處理操作的幅度,所以基本上不會產(chǎn)生非自然的瑕疵。 另外,還可以直接學習一個綜合性質(zhì)的濾波操作,如深度雙邊濾波模型[6]。 基于參數(shù)學習的模型主要問題是計算效率太低,模型訓練過程復雜。 [1] Bychkovsky V, Paris S, Chan E, et al. Learning photographic global tonal adjustment with a database of input/output image pairs[C]//CVPR 2011. IEEE, 2011: 97-104. [2] Ignatov A, Kobyshev N, Timofte R, et al. DSLR-quality photos on mobile devices with deep convolutional networks[C]//Proceedings of the IEEE International Conference on DSLR-quality photos on mobileComputer Vision. 2017: 3277-3285. [3] Chen Q, Xu J, Koltun V. Fast image processing with fully-convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2497-2506. [4] Talebi H, Milanfar P. Learned perceptual image enhancement[C]//2018 IEEE International Conference on Computational Photography (ICCP). IEEE, 2018: 1-13. [5] Hu Y, He H, Xu C, et al. Exposure: A white-box photo post-processing framework[J]. ACM Transactions on Graphics (TOG), 2018, 37(2): 26. [6] Gharbi M, Chen J, Barron J T, et al. Deep bilateral learning for real-timeimage enhancement[J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 118. 與美學評估問題相似,圖像增強是一個比較主觀的問題,沒有一對一的標準答案,甚至因為人群的審美而產(chǎn)生非常大的差異,這是一個目前還沒有取得非常好的工業(yè)級應用的領(lǐng)域。 有三AI秋季劃-圖像質(zhì)量圖 圖像質(zhì)量小組需要掌握與圖像質(zhì)量相關(guān)的內(nèi)容,學習的東西包括8大方向:圖像質(zhì)量評價,圖像構(gòu)圖分析,圖像降噪,圖像對比度增強,圖像去模糊與超分辨,圖像風格化,圖像深度估計,圖像修復。了解詳細請閱讀以下文章: 轉(zhuǎn)載文章請后臺聯(lián)系 侵權(quán)必究 |
|