超分辨率技术取得新进展：能还原打码图片

发布时间：2017-04-30 10:39 所属栏目：15 来源：雷锋网

导读：ICLR 2017 于4月24-26日在法国土伦举行，雷锋网AI科技评论的编辑们也将从法国带来一线报道。近期，雷锋网也围绕会议议程及论文介绍展开一系列的覆盖和专题报道，敬请期待。图像超分辨率 (Super-Resolution, SR)是一个不确定的逆向问题，相同的一张下采样

ICLR 2017 于4月24-26日在法国土伦举行，雷锋网AI科技评论的编辑们也将从法国带来一线报道。近期，雷锋网也围绕会议议程及论文介绍展开一系列的覆盖和专题报道，敬请期待。

图像超分辨率 (Super-Resolution, SR)是一个不确定的逆向问题，相同的一张下采样（Downsampled）图像，进过图像超分辨率处理后，得出与原图相似的高分辨率图像却往往是不止一张，而是有很多张。

当前大多数的单一图像进行超分辨率处理的方法是运用经验风险最小化 (Empirical Risk Minimisation, ERM) 原则，这时候一般情况下会出现单像素大小的均方误差 (Mean Squared Error, MSE) 损失。

但是，采用经验风险最小化原则处理得出的图像，像素之间的过度往往过度平滑，从而造成图像模糊，整体效果看起来与原图差别较大。比使用经验风险最小化原则更理想的方法，是使用最大后验概率( Maximum a Posteriori, MAP)推断。在图像先验的前提下，得到高像素图像的可能性更高，因此得出的图像往往更接近原图。

Twitter 及哥本哈根的研究人员认为，在超分辨率处理过程中，直接对低像素图像进行最大后验概率估值是非常重要的，就像如果想要确保样图图像先验，就需要先构建一个模型一样地重要。想要进行摊销最大后验概率推断，从而直接计算出最大后验概率估值，本文在这一步引入的新方法是使用卷积神经网络。

而为了确保网络输入低分辨率图像后，能始终如一地输出相应的高分辨率图像，研究人员创造性地引入了新型神经网络架构，在这个网络里，有效解决超分辨率的方法是，向仿射子空间进行投影。使用新型架构的结果显示，摊销最大后验概率推理，能减少到两个分布之间的最小化交叉熵，这个结果与生成模型经过训练后得到的结果相类似。如何对结果进行优化，论文里提出了三种方法：

（1）生成式对抗网络 (GAN)

（2）去噪指导超分辨率，从去噪过程中反向推导去噪的梯度估值，从而训练网络

（3）基线法，该方法使用最大似然训练图像先验

实验表明，使用真实图像数据，基于生成式对抗网络得到的图像最接近原图。最后，在变分自动编码器的举例中，成功建立了生成式对抗网络和摊销变异推断之间的联系。

论文结果展示：

四组经过超像素处理的青草质感对比图

顶行中x为输入模型的低分辨率图像，y为高分辨率原图；剩余顶行各栏为模型根据相应算法输出的图像。底行为顶行相应图像的局部放大图。

从局部放大图可知，AffGAN得出的图像比AffMSE得出的图像效果更锐利更清晰。请注意，AffDAE和AffLL都只能得出非常模糊的图像。

图中第三列是未经仿射投影训练的模型输出的图像，这个模型采用基线法，例图已经是该模型得出最佳上采样效果的图像。

四组经过超像素处理的明星肖像

x为输入模型的低分辨率图像，y为高分辨率原图，其余为各算法的输出图像。AffGAN和SoftGAN输出的图像都比MSE输出的图像更锐利更清晰。与SoftGAN输出的图像相比，AffGAN输出的图像稍微锐利一些，高频噪声（噪点）却更多。

原图采集自ImageNET ，四组分辨率从32x32到128×128不等的图像，使用AffGAN进行超分辨率处理，输出图像如上图所示。

最上面一行是输出图像，中间一行是原图，最下面一行是输入模型的图像。总体来看，AffGAN输出的图像比较接近原图，但和原图的区别还是显而易见的。有趣的是，第三列中，蛇身几乎和水融为一体，这显然是不合理的，但考虑到低分辨率输入图像，输出图像已经逼真了很多。

ICLR 委员会最终决定

评价：所有审评者都认为，这是一篇高质量、值得刊登出来的原创论文

决定：口头报告(Oral)

评论1：这是一篇非常好的论文。论文里有许多新颖的想法，文笔非常好，很好地执行了设计的实验，也得出了优异的实验结果。

在第3-3.1节中的分析，看到把 DAE 应用于3.3节的内容，据我所知这个做法是非常新颖的，很有科研价值。图1（第1节）所表达的内容非常明确。5.6节提到争议非常有趣，如果认真探究这些争议，很有可能引出新的研究方向，关于“生成可信样本 (producing plausible samples) ”问题，如果能得出确切的数学，意义是非常重大的，然而现在这个问题还远未解决。

次要评论/问题：

·请问是否与分段化或者结构化预测中使用的架构进行过比较？因为利用反向 KL 来训练条件单峰分布，使用平均场 CRF 这个方法时，您自然而然地需要选择一种模式，这种模式得出的图像，就像您之前得出的图像那样锐利。例如连续变量这样的问题，可以像 pixel CNN 那样通过离散化来改善。另一个优点是，这些架构非常稳定，可以用比论文里面还要大的模型进行训练。

·第3页第二项employs应用单数employ（此处在原文已改正）。

评论2：新颖的方法论

打分结果：8：入选论文的 Top 50％，毫无疑问获得入选

评论内容：这篇论文提出了一个解决超分辨率问题的新框架 ——摊销最大后验概率推断，并且为了确保输入低分辨率图像能稳定输出相应的高分辨率图像，研究人员创新性地加入了一个预先学习的仿射投影层。此外，论文还提出了三种解决交叉熵最小化问题的方法。总的来说，这是一篇很棒的论文，然而我还是有以下几个问题：

1、提议的摊销最大后验概率推理，与以往的超分辨率解决方法都不同。结合生成式对抗网络，该框架可以获得接近原图的优异图像结果。和另一种基于生成式对抗网络的超分辨率解决方法——基于生成式对抗网络，图像逼真的单一图像超分辨率——相比，这种新方法对解决图像超分辨率问题的最先进技术的贡献是什么？

2、使用仿射投影架构，该模型不需要使用任何高分辨率和低分辨率图像组进行训练。然而这个架构的限制是，当训练仿射投影层时，仍然需要相应的高分辨率和低分辨率图像组，这是否意味着只是把这个训练过程转化为对仿射投影的训练？

3、论文展示了对多种源图像进行超分辨处理后的图像，包括使用 ImageNet 图像，以及其他来源图像。为了方便与以前方法得出的图像进行比较，是否可以提供利用超分辨率常规测试数据集5、常规测试数据集14或者 BSD100 而得出的图像？

4、可以看到本文示例的输出图像的分辨率限制在128×128，然而进行超分辨率处理的图像，任意大小都有，这时新框架能否在更大尺寸的图像上出色表现呢？

5、正常的生成式对抗网络有一个噪声项，当学习一个分布时，噪声项能更清晰地展现学习情况。有尝试过使用噪音矢量吗？

（编辑：ASP站长网）