60年技术简史,带你读懂AI的前世今生(3)
因为这个领域比较新,而且研究的”范围”很广,也没有图像分类这样的标准任务和ImageNet这样的标准数据集,很多时候评测的方法非常主观。很多文章都是找到某一个应用点,然后生成(也可能是精心挑选)了一些很酷的图片或者视频,”有图有真相”,大家一看图片很酷,内容又看不懂,因此不明觉厉。要说解决了什么实际问题,也很难说。但是不管怎么说,这个方向是很吸引眼球的,比如DeepFake这样的应用一下就能引起大家的兴趣和讨论。我对这个方向了解不多,下面只列举一些应用。 style-transfer 最早的《A Neural Algorithm of Artistic Style》发表于2015年,这还是在GAN提出之前,不过我还是把它放到生成模型这里了。它当年可是火过一阵,还因此产生了一个爆款的App叫Prisma。如下图所示,给定一幅风景照片和一幅画(比如c是梵高的画),使用这项技术可以在风景照片里加入梵高的风格。 图:Neural Style Transfer 朱俊彦等人在《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》提出的CycleGAN是一个比较有趣其的模型,它不需要Paired的数据。所谓Paired数据,就是需要一张普通马的照片,还需要一张斑马的照片,而且要求它们内容是完全匹配的。要获得配对的数据是非常困难的,我们拍摄的时候不可能找到外形和姿势完全相同的斑马和普通马,包括相同的背景。另外给定一张梵高的作品,我们怎么找到与之配对的照片?或者反过来,给定一张风景照片,去哪找和它内容相同的艺术作品? 本文介绍的Cycle GAN不要求有配对的训练数据,而只需要两个不同Domain的未标注数据集就行了。比如要把普通马变成斑马,我们只需要准备很多普通马的照片和很多斑马的照片,然后把所有斑马的照片放在一起,把所有的普通马照片放到一起就行了,这显然很容易。风景画变梵高风格也很容易——我们找到很多风景画的照片,然后尽可能多的找到梵高的画作就可以了。它的效果如下图所示。 图:CycleGAN text-to-image text-to-image是根据文字描述来生成相应的图片,这和Image Captioning正好相反。Zhang等人2016年的《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》是这个方向较早的一篇文章,其效果如下图最后一行所示。 图:StackGAN和其它模型的对比 super-resolution super-resolution是根据一幅低分辨率的图片生成对应高分辨率的图片,和传统的插值方法相比,生成模型因为从大量的图片里学习到了其分布,因此它”猜测”出来的内容比插值效果要好很多。《Enhanced Super-Resolution Generative Adversarial Networks》是2018年的一篇文章,它的效果如下图中间所示。 图:ESRGAN效果 image inpainting image inpainting是遮挡掉图片的一部分,比如打了马赛克,然后用生成模型来”修补”这部分内容。下图是Generative Image Inpainting with Contextual Attention的效果。 图:DeepFill系统的效果 《EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning》这篇文章借鉴人类绘画时先画轮廓(线)后上色的过程,通过把inpainting分成edge generator和image completion network两个步骤,如下面是它的效果。 图:EdgeConnect的效果 最新热点:自动优化网络结构和半监督学习 最近有两个方向我觉得值得关注:一个是自动优化网络结构;另一个是半监督的学习。 自动网络优化最新的文章是Google研究院的《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》,它希望找到一个神经网络扩展方法可以同时提高网络的准确率和效率(减少参数)。要实现这点,一个很关键的步骤便是如何平衡宽度、深度和分辨率这三个维度。 作者发现,可以使用一种固定比例的缩放操作简单地实现对三者的平衡。最终,作者提出了一种简单却有效的compound scaling method。如果想使用 2𝑁倍的计算资源,只需要对网络宽度增加𝛼𝑁,深度增加𝛽𝑁和增加𝛾𝑁倍的图像大小。其中𝛼,𝛽,𝛾是固定的系数,最优的值通常使用小范围的grid search得到。通过这种方法他们实现了EfficientNet模型,这个模型使用非常少的参数就达到了很好的效果,如下图所示。 图:模型参数和准确率图 我们可以看到,EfficientNet比之前最好的模型GPipe要小8.4倍,但是效果比它还要好。 (编辑:ASP站长网) |