腾讯AI击败王者荣耀职业队,全靠自学,一天训练量为人类440年(3)
于是,腾讯在标注训练数据时,把下一次攻击发生的地点,定为英雄现在该去的地点。 比如说上图就以韩信为例,展示了游戏开局时英雄该往哪走。其中左侧显示的是游戏在初始阶段s-1时的状态,中间和右侧红框标出的ys、ys+1显示的是韩信进行第一、二次攻击的位置,也就是他在s-1、s两个阶段该去的位置。 AI的目标,就是学会在s-1阶段该准备去y位置,在s阶段该去ys+1位置。 用这样的数据训练注意力层,就能让AI掌握英雄移动的奥义。 知道了该去哪还不够,要想上王者,还得会判断局势,调整策略。这就是时期层的工作了。 想知道游戏进行到了前期、对线期还是后期,只靠时间当然不够。好在游戏里主要资源的状况和阶段密不可分。比如说,如果英雄还在以推外塔打暴君(小龙)为目标,那游戏一定刚刚开局;如果打到了敌方家里,那当然是后期了。 所以,教AI判断局势,根据的也是对敌方主要资源的打击状况,包括塔、暴君、主宰(大龙)和水晶(base)。 上图显示的就是时期层关注的敌方主要资源,模型要从中学会的,是根据资源状况来判断现在该打击什么主要资源了,并进一步判断要完成哪些小目标。 比如下图显示的偷蓝buff(野怪)、清下路兵线,就都是推一塔这个时期的小目标。 能分析局势、确定目标,还知道该往哪儿走,剩下的就是队友之间的沟通配合问题了。 不过要学沟通,真的没什么人类对战的数据能拿来训练。毕竟人类队友的沟通充满怨念 于是,腾讯设计了一种全新的跨智能体沟通机制,用队友的注意力标签来训练AI,让它学会预测队友要往哪走,并据此做出决策。 就这样,一支队伍中的5个智能体就可以协作了,也算是一种“沟通”机制吧。腾讯称之为模仿跨智能体沟通(Imitated Crossagents Communication)。
(编辑:ASP站长网) |