机器人在人机协作团队中成“领导”?工作原理为何?(2)
然后利用图论算法对原始图进行剪枝,得到最大似然图。例如,我们可以贪婪地为每个智能体选择权重最高的出边(outgoing edge )。 剩下的图中,粗体边表示最有可能的边。我们称这个图为领导者-追随者图(LFG)。 由于我们可以很容易地对实时变换的智能体数量进行建模,因此图结构可以随着智能体数量的变化而伸缩。例如,在下一个时间步长 $kth$ 中添加一个智能体所需要的时间与智能体程序的数量 $n$ 和目标的数量 $m$ 线性相关。在实践中,这需要以毫秒为单位来计算。 我们的模型泛化后有多准确? 通过将领导者-追随者图所做的预测与真实落地的预测进行比较,来评估我们的模型泛化的准确性。用模拟数据和同时包含模拟和真实人类数据的数据(混合数据)进行训练实验。我们发现,训练更多的智能体有助于模型的推广。这表明,需要权衡使用较少的智能体进行训练还是使用量较多的智能体进行训练(这需要收集更多的数据)。 潜在结构对机器人有什么用? 机器人可以利用潜在结构来推断团队的有用信息。例如,在领导和跟随的例子中,我们可以识别诸如智能体的目标或谁是最有影响力的领导者之类的信息。这些信息允许机器人识别对任务至关重要的关键目标或智能体。考虑到这一点,机器人可以采取行动来达到预期的结果。下面是机器人利用图形结构影响人类团队的两项任务: A.合作任务 在许多现实生活场景中,能够带领一组人实现目标是很有用的。例如,在搜救任务中,拥有更多幸存者位置信息的机器人应该能够领导团队。我们已经创建了一个类似的场景,其中有两个目标,幸存者的潜在位置,以及一个知道幸存者所在位置的机器人。机器人试图通过带领所有队友到达目标位置来最大化联合效用。为了影响团队,机器人使用领导者-跟随者图来推断当前最有影响力的领导者是谁。然后机器人选择采取最大化最具影响力的领导者实现最优目标的概率的动作。 在下面的图中,绿色的圆圈代表位置(或目标),橙色的圆圈代表模拟的人类智能体,黑色的圆圈代表机器人。机器人正试图带领团队走向更理想的底部位置。我们将使用图结构的机器人(上)与贪婪地瞄准最优目标的机器人(下)进行对比。 上方图中,机器人向底部移动,并围绕底部移动,这是最优的目标,目的是引导推断出的领导者向目标移动。下方图中,机器人直接朝底部目标前进,没有任何积极影响队友的企图。 如果大多数人首先与底层目标发生冲突,机器人就会成功;如果大多数人与次优目标发生冲突,机器人就会失败。下面是一个图表,它记录了使用图形表示的机器人与使用其他基线策略的机器人的成功率。
我们发现,在具有大量潜在目标的更困难的场景中,图形表示是有用的。 B .对抗任务 机器人也可能想要阻止人类团队达成集体目标。例如,想象一个夺旗游戏,一个机器人队友试图阻止对手夺旗。 我们创造了一个类似的任务,一个机器人想要阻止一个人类团队达成目标。为了让团队陷入停滞,敌对型机器人使用领导者-追随者图来识别当前最有影响力的领导者是谁。然后,机器人选择采取能够引导其推断出的最有影响力的领导者偏离目标的最大化概率的行动。下图左边显示了机器人的动作示例。在右边,我们展示了一个简单策略的例子,一个机器人随机选择一个玩家,并试图阻止它,但没有成功。 上方图中,机器人使用领导者-追随者图来采取行动,阻止推断出来的领导者达到目标。下方图中,机器人没能成功地跟随一名玩家以阻止他达到目标。 (编辑:ASP站长网) |