腾讯AI击败王者荣耀职业队，全靠自学，一天训练量为人类440年(3)

发布时间：2019-08-05 12:19 所属栏目：19 来源：问耕

导读：于是，腾讯在标注训练数据时，把下一次攻击发生的地点，定为英雄现在该去的地点。比如说上图就以韩信为例，展示了游戏开局时英雄该往哪走。其中左侧显示的是游戏在初始阶段s-1时的状态，中间和右侧红框标出的y s

于是，腾讯在标注训练数据时，把下一次攻击发生的地点，定为英雄现在该去的地点。

比如说上图就以韩信为例，展示了游戏开局时英雄该往哪走。其中左侧显示的是游戏在初始阶段s-1时的状态，中间和右侧红框标出的y_s、y_s+1显示的是韩信进行第一、二次攻击的位置，也就是他在s-1、s两个阶段该去的位置。

AI的目标，就是学会在s-1阶段该准备去y位置，在s阶段该去y_s+1位置。

用这样的数据训练注意力层，就能让AI掌握英雄移动的奥义。

知道了该去哪还不够，要想上王者，还得会判断局势，调整策略。这就是时期层的工作了。

想知道游戏进行到了前期、对线期还是后期，只靠时间当然不够。好在游戏里主要资源的状况和阶段密不可分。比如说，如果英雄还在以推外塔打暴君（小龙）为目标，那游戏一定刚刚开局；如果打到了敌方家里，那当然是后期了。

所以，教AI判断局势，根据的也是对敌方主要资源的打击状况，包括塔、暴君、主宰（大龙）和水晶（base）。

上图显示的就是时期层关注的敌方主要资源，模型要从中学会的，是根据资源状况来判断现在该打击什么主要资源了，并进一步判断要完成哪些小目标。

比如下图显示的偷蓝buff（野怪）、清下路兵线，就都是推一塔这个时期的小目标。

能分析局势、确定目标，还知道该往哪儿走，剩下的就是队友之间的沟通配合问题了。

不过要学沟通，真的没什么人类对战的数据能拿来训练。毕竟人类队友的沟通充满怨念

于是，腾讯设计了一种全新的跨智能体沟通机制，用队友的注意力标签来训练AI，让它学会预测队友要往哪走，并据此做出决策。

就这样，一支队伍中的5个智能体就可以协作了，也算是一种“沟通”机制吧。腾讯称之为模仿跨智能体沟通（Imitated Crossagents Communication）。

（编辑：ASP站长网）