在训练机器人时加入音频数据有助于它们更好地完成任务

斯坦福大学和丰田研究所的机器人专家联合团队发现，在训练机器人时，将音频数据添加到视觉数据中有助于提高它们的学习能力。该团队已在arXiv预印本服务器上发布了他们的研究成果。

研究人员指出，几乎所有基于人工智能的机器人训练都涉及让它们接触大量视觉信息，而忽略了相关的音频信息。他们想知道，如果在机器人上安装麦克风，让它们收集物体在执行任务时应有的声音数据，是否有助于它们更好地学习这项任务。

例如，如果机器人要学习如何打开一盒麦片并将其倒入碗中，那么听到盒子被打开的声音以及麦片倒入碗中的干燥声音可能会有所帮助。为了验证这一点，研究团队设计和进行了四项机器人学习实验。

第一个实验是教机器人使用铲子在煎锅中翻转百吉饼。第二个实验是教机器人使用橡皮擦去白板上的图像。第三个实验是将一个杯子中的骰子倒入另一个杯子中，第四个实验是从三个可用的样本中选择正确大小的胶带，并将其用于将电线粘贴到塑料条上。

所有实验都使用了配备有抓爪的同一台机器人。这些实验也分别通过仅使用视频和使用视频加音频两种方式来完成。研究团队还改变了教学和性能因素，如桌子高度、胶带类型或白板上的图像类型。

在所有实验结束后，研究人员通过评估机器人学习和执行任务的速度和容易程度以及准确性来比较结果。他们发现，在某些任务中，添加音频可以显著提高速度和准确性，但在其他任务中则不然。

例如，在倒骰子的任务中加入音频数据后，机器人判断杯子里是否有骰子的能力显著提高。由于独特的声音，它还有助于机器人理解是否对橡皮擦施加了正确的压力。然而，在判断百吉饼是否成功翻转或白板上的图像是否完全擦除方面，添加声音的帮助并不大。