音频数据帮助AI在3D迷宫中到达目的地

2019-5-14 18:37

【天极网网络频道】5月14日消息，视觉是人类导航世界的主要感官，但声音可能也同样重要。有研究表明，人们可以学习如何在音频信号的音量、方向和速度上找到微妙的线索。受此启发，东芬兰大学的研究人员在其最新发表的名为《自主智能体受益于听力？》论文中提出，人工智能系统能通过声音为视觉数据提供补充信息。

音频数据帮助AI在3D迷宫中到达目的地

研究人员表示，初步结果表明，这种方法可以提高agent(智能体，指能自主活动的软件或者硬件实体)在3D迷宫中完成目标的能力。

论文作者写道：“对于智能体来说，只使用视觉信息进行学习并不总是那么容易。例如，在有很多房间且智能体和目标之间没有直接视线支持的情况下，智能体很难仅使用视觉信息到达目标。因此，使用音频特性可以为此类问题提供有价值的信息。”

研究人员的人工智能采用了深度Q网络的形式，这种模型对不同类型的数据(即图像像素和音频)具有灵活性，并且已成功应用于Atari游戏。

正如团队解释的那样：“我们将关于环境(到目标的距离)的信息编码到样本的。然后，将样本连同图像一起提供给智能体。由于目标的距离是用的整体音高编码的样本，这些特征可以很容易地被理解为对智能体有用的信息(音高越高代表距离目标越近)。这些功能可以作为一种完整性检查，以确保提供有关目标距离的信息对代理是有利的。”

音频数据帮助AI在3D迷宫中到达目的地

在一台运行定制Vizdoom场景的强大PC上进行的实验中，科学人员让智能体在迷宫中导航，即左转、右转、前进或后退到不同的房间。智能体最初完全是随机行动，但随着时间的推移，当它们因为实现目标而获得奖励(一种被称为强化学习的技术)时，它们的表现得到了改善。

据了解，未来，该团队将在不同的环境中，进行视频游戏以外的测试。相信该技术将很快在现实场景中得到应用。