60年技术简史,带你读懂AI的前世今生(7)
因为强化学习只是一种方法,它在很多领域都有应用,机器人、控制和游戏是其最常见的应用领域,但是其它领域包括自然语言处理的对话系统,也经常会用到强化学习技术。强化学习和机器学习一样有很多方法:根据是否对环境建模可以分为Model based和Mode free的方法;按照是否有Value函数又分为Value based方法和Policy Gradient,但是又可以把两者结合得到Actor-Critic方法…… 我们这里重点关注深度学习和强化学习结合的一些方法。 Google DeepMind在Nature发表的文章《Human-level Control through Deep Reinforcement Learning》首次实现了End-to-End的深度强化学习模型Deep Q-Networks,它的输入是游戏画面的像素值,而输出是游戏的控制命令,它的原理如下图所示。 图:Deep Q-Networks 通过Experience Replay来避免同一个trajectory数据的相关性,同时使用引入了一个Target Network 𝑄𝜃′来解决target不稳定的问题,Deep Q-Networks在Atari 2600的49个游戏中,有29个游戏得分达到了人类的75%以上,而其中23个游戏中的得分超过了人类选手,如下图所示。 图:Deep Q-Networks在Atari2600平台上的得分 Deep Q-Networks的后续改进工作包括《Prioritized Expeience Replay》、《Deep Reinforcement Learning with Double Q-learning》和《Rainbow: Combining Improvements in Deep Reinforcement Learning》等。 而Policy Gradient类的工作包括《Trust Region Policy Optimization》(TRPO)、Deterministic Policy Gradient Algorithms》(DPG)、《Expected Policy Gradients for Reinforcement Learning》、《Proximal Policy Optimization Algorithms》(PPO)等。 而在游戏方面,Google DeepMind发表的大家耳熟能详的AlphaGo、AlphaGoZero和AlphaZero系列文章。 围棋解决了之后,大家也把关注点放到了即时战略游戏上,包括DeepMind的《AlphaStar: An Evolutionary Computation Perspective》和OpenAI Five在星际争霸2和Dota2上都取得了很大的进展。 此外,在Meta Learning、Imitation Learning和Inverse Reinforcement Learning也出现了一些新的进展,我们这里就不一一列举了。 未来展望 最近一个比较明显的趋势就是非监督(半监督)学习的进展,首先是在自然语言处理领域,根据前面的分析,这个领域的任务多、监督数据少的特点一直期望能在这个方向有所突破。在计算机视觉我们也看到了Google DeepMind的最新进展,我觉得还会有更多的突破。相对而言,在语音识别领域这方面的进展就慢了一些,先不说无监督,就连从一个数据集(应用场景)Transfer到另一个数据集(场景)都很难。比如我们有大量普通话的数据,怎么能够使用少量的数据就能在其它带方言的普通话上进行很好的识别。虽然有很多Adaptation的技术,但是总体看起来还是很难达到预期。 另外一个就是End-to-End的系统在业界(除了Google声称使用)还并没有得到广泛应用,当然这跟语音领域的玩家相对很少有关,况且目前的系统效果也不错,完全推倒重来没有必要(除非计算机视觉领域一样深度学习的方法远超传统的方法)。原来的HMM-GMM改造成HMM-DNN之后再加上各种Adaptation和sequence discriminative training,仍然可以得到SOTA的效果,所以相对来讲使用End-to-end的动力就更加不足。虽然学术界大力在往这个方向发展,但是老的语音玩家(Google之外)并不怎么买账。 从长远来讲,要“真正”实现人工智能,我认为还得结合视觉、听觉(甚至味觉和触觉等)和语言,使用无监督、监督和强化学习的方法,让”机器”有一个可以自己控制的身体,像三岁小孩一样融入”真正”的物理世界和人类社会,才有可能实现。这除了需要科技上的进步,还需要我们人类在思想上的巨大突破才有可能实现。
(编辑:ASP站长网) |