生成對抗網絡GAN論文TOP 10

昵稱16619343 2019-03-20

展開全文

【新智元導讀】生成對抗網絡 (GAN) 是深度學習中最有趣、最受歡迎的應用之一。本文列出了 10 篇關于 GAN 的論文，這些論文將為你提供一個很好的對 GAN 的介紹，幫助你理解最先進技術的基礎。

本文選擇的 10 篇 GAN 論文包括：

?DCGANs
?Improved Techniques for Training GANs
Conditional GANs
Progressively Growing GANs
?BigGAN
StyleGAN
CycleGAN
?Pix2Pix
?StackGAN
?Generative Adversarial Networks

DCGANs?—?Radford et al. (2015)

我建議你以 DCGAN 這篇論文來開啟你的 GAN 之旅。這篇論文展示了卷積層如何與GAN 一起使用，并為此提供了一系列架構指南。這篇論文還討論了 GAN 特征的可視化、潛在空間插值、利用判別器特征來訓練分類器、評估結果等問題。所有這些問題都必然會出現(xiàn)在你的 GAN 研究中。

總之，DCGAN 論文是一篇必讀的 GAN 論文，因為它以一種非常清晰的方式定義架構，因此很容易從一些代碼開始，并開始形成開發(fā) GAN的直覺。

DCGAN 模型：具有上采樣卷積層的生成器架構

論文：

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

Alec Radford, Luke Metz, Soumith Chintala

改進 GAN 訓練的技術 ——?Salimans et al. (2016)

這篇論文 (作者包括 Ian Goodfellow) 根據(jù)上述 DCGAN 論文中列出的架構指南，提供了一系列建議。這篇論文將幫助你了解 GAN 不穩(wěn)定性的最佳假設。此外，本文還提供了許多用于穩(wěn)定 DCGAN 訓練的其他機器，包括特征匹配、 minibatch 識別、歷史平均、單邊標簽平滑和虛擬批標準化。使用這些技巧來構建一個簡單的 DCGAN 實現(xiàn)是一個很好的練習，有助于更深入地了解 GAN。

論文：

Improved Techniques for Training GANs

Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen

Conditional GANs?—?Mirza and Osindero (2014)

這是一篇很好的論文，讀起來很順暢。條件 GAN(Conditional GAN) 是最先進的 GAN之一。論文展示了如何整合數(shù)據(jù)的類標簽，從而使 GAN 訓練更加穩(wěn)定。利用先驗信息對 GAN 進行調節(jié)這樣的概念，在此后的 GAN 研究中是一個反復出現(xiàn)的主題，對于側重于 image-to-image 或 text-to-image 的論文尤其重要。

Conditional GAN 架構：除了隨機噪聲向量 z 之外，類標簽 y 被連接在一起作為網絡的輸入

論文：

Conditional Generative Adversarial Nets

Mehdi Mirza, Simon Osindero

Progressively Growing GANs—?Karras et al. (2017)

Progressively Growing GAN (PG-GAN) 有著驚人的結果，以及對 GAN 問題的創(chuàng)造性方法，因此也是一篇必讀論文。

這篇 GAN 論文來自 NVIDIA Research，提出以一種漸進增大（progressive growing）的方式訓練 GAN，通過使用逐漸增大的 GAN 網絡（稱為 PG-GAN）和精心處理的CelebA-HQ 數(shù)據(jù)集，實現(xiàn)了效果令人驚嘆的生成圖像。作者表示，這種方式不僅穩(wěn)定了訓練，GAN 生成的圖像也是迄今為止質量最好的。

它的關鍵想法是漸進地增大生成器和鑒別器：從低分辨率開始，隨著訓練的進展，添加新的層對越來越精細的細節(jié)進行建模?！癙rogressive Growing” 指的是先訓練 4x4 的網絡，然后訓練 8x8，不斷增大，最終達到 1024x1024。這既加快了訓練速度，又大大穩(wěn)定了訓練速度，并且生成的圖像質量非常高。

Progressively Growing GAN 的多尺度架構，模型從 4×4 逐步增大到 1024×1024

論文：

Progressive Growing of GANs for Improved Quality, Stability, and Variation

Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen

相關閱讀：

迄今最真實的 GAN：英偉達漸進增大方式訓練 GAN，生成前所未有高清圖像

BigGAN?—?Brock et al. (2019)

BigGAN 模型是基于 ImageNet 生成圖像質量最高的模型之一。該模型很難在本地機器上實現(xiàn)，而且 BigGAN 有許多組件，如 Self-Attention、 Spectral Normalization 和帶有投影鑒別器的 cGAN，這些組件在各自的論文中都有更好的解釋。不過，這篇論文對構成當前最先進技術水平的基礎論文的思想提供了很好的概述，因此非常值得閱讀。

BigGAN 生成的圖像

論文：

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Andrew Brock, Jeff Donahue, Karen Simonyan

StyleGAN?—?Karras et al. (2019)

StyleGAN 模型可以說是最先進的，特別是利用了潛在空間控制。該模型借鑒了神經風格遷移中一種稱為自適應實例標準化 (AdaIN) 的機制來控制潛在空間向量 z。映射網絡和 AdaIN 條件在整個生成器模型中的分布的結合使得很難自己實現(xiàn)一個 StyleGAN，但它仍是一篇很好的論文，包含了許多有趣的想法。

StyleGAN 架構，允許潛在空間控制

論文：

A Style-Based Generator Architecture for Generative Adversarial Networks

Tero Karras, Samuli Laine, Timo Aila

CycleGAN?—?Zhu et al. (2017)

CycleGAN 的論文不同于前面列舉的 6 篇論文，因為它討論的是 image-to-image 的轉換問題，而不是隨機向量的圖像合成問題。CycleGAN 更具體地處理了沒有成對訓練樣本的 image-to-image 轉換的情況。然而，由于 Cycle-Consistency loss 公式的優(yōu)雅性，以及如何穩(wěn)定 GAN 訓練的啟發(fā)性，這是一篇很好的論文。CycleGAN 有很多很酷的應用，比如超分辨率，風格轉換，例如將馬的圖像變成斑馬。

Cycle Consistency Loss 背后的主要想法，一個句子從法語翻譯成英語，再翻譯回法語，應該跟原來的是同一個句子

論文：

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros

Pix2Pix?—?Isola et al. (2016)

Pix2Pix 是另一種圖像到圖像轉換的 GAN 模型。該框架使用成對的訓練樣本，并在GAN 模型中使用多種不同的配置。讀這篇論文時，我覺得最有趣部分是關于 PatchGAN的討論。PatchGAN 通過觀察圖像的 70×70 的區(qū)域來判斷它們是真的還是假的，而不是查看整個圖像。該模型還展示了一個有趣的 U-Net 風格的生成器架構，以及在生成器模型中使用 ResNet 風格的 skip connections。 Pix2Pix 有很多很酷的應用，比如將草圖轉換成逼真的照片。

使用成對的訓練樣本進行 Image-to-Image 轉換

論文：

Image-to-Image Translation with Conditional Adversarial Networks

Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros

StackGAN?—?Zhang et al. (2017)

StackGAN 的論文與本列表中的前幾篇論文相比非常不同。它與 Conditional GAN 和Progressively Growing GANs 最為相似。StackGAN 模型的工作原理與 Progressively Growing GANs 相似，因為它可以在多個尺度上工作。StackGAN 首先輸出分辨率為64×64 的圖像，然后將其作為先驗信息生成一個 256×256 分辨率的圖像。

StackGAN是從自然語言文本生成圖像。這是通過改變文本嵌入來實現(xiàn)的，以便捕獲視覺特征。這是一篇非常有趣的文章，如果 StyleGAN 中顯示的潛在空間控制與 StackGAN 中定義的自然語言接口相結合，想必會非常令人驚訝。

基于文本嵌入的 StackGAN 多尺度架構背后的想法

論文：

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas

Generative Adversarial Networks?—?Goodfellow et al. (2014)

Ian Goodfellow 的原始 GAN 論文對任何研究 GAN 的人來說都是必讀的。這篇論文定義了 GAN 框架，并討論了 “非飽和” 損失函數(shù)。論文還給出了最優(yōu)判別器的推導，這是近年來 GAN 論文中經常出現(xiàn)的一個證明。論文還在 MNIST、TFD 和 CIFAR-10 圖像數(shù)據(jù)集上對 GAN 的有效性進行了實驗驗證。

論文：

Generative Adversarial Networks

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

原文鏈接：

新智元春季招聘開啟，一起弄潮AI之巔！

【2019新智元 AI 技術峰會倒計時8天】

2019年的3月27日，新智元再匯AI之力，在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術峰會。峰會以“智能云·芯世界“為主題，聚焦智能云和AI芯片的發(fā)展，重塑未來AI世界格局。

同時，新智元將在峰會現(xiàn)場權威發(fā)布若干AI白皮書，聚焦產業(yè)鏈的創(chuàng)新活躍，評述華人AI學者的影響力，助力中國在世界級的AI競爭中實現(xiàn)超越。