首页 > 技术知识 > 正文

近年来,在学习技术方面取得了重大进展,使机器人能够执行各种操作任务,并具有对新场景的强泛化能力。然而,这一进展在很大程度上依赖于大规模数据集,这些数据集的构建和扩展具有挑战性,因为它们通常需要人工演示或工程级的自主数据收集方案。

在新论文《用语义想象的经验扩展机器人学习》中,谷歌和谷歌Research的机器人技术团队提出了用语义想象的经验(ROSIE)进行机器人学习,这是一种通用的语义感知数据增强策略,通过利用文本到图像的基础模型来生成用于机器人学习的数据,绕过了苛刻的数据获取过程。

生成扩散模型可以模拟复杂的分布,并在文本到图像生成方面表现出巨大的能力。虽然这些模型以其在计算机视觉和自然语言处理任务方面的性能而闻名,但它们也可用于数据增强。

谷歌的ROSIE数据增强策略通过语义想象体验扩展机器人学习-谷歌数据洞察教程下载

受现成的文本引导扩散模型(其先验由大量真实世界训练数据提供信息)功能的启发,该团队探索了这些模型如何通过在现有机器人数据集之上生成语义上有意义的增强来扩展训练数据来改善机器人学习和泛化。

该团队的方法首先使用开放的词汇分割模型定位图像的增强区域,并根据这种自然语言提示生成与语言相关的目标区域的掩码。给定增强文本,ROSIE 然后使用 Imagen 编辑器对所选蒙版执行修复,以根据增强文本指令添加看不见但语义准确的对象。

在他们的实证研究中,该团队评估了ROSIE在各种机器人操作和具体推理任务方面的应用。结果证实,ROSIE的数据增强提高了学习模型对新对象看不见的任务的泛化能力,并提高了它们对干扰项和背景的鲁棒性。

猜你喜欢