talk-and-tweak dataset

Name: talk-and-tweak dataset
Creator: 北京小米机器人技术有限公司
Published: 2025-09-17 15:44:59
License: 暂无描述

arXiv2025-09-17 更新2025-09-19 收录

下载链接：

https://sites.google.com/view/hil-daft/

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出了一个名为'talk-and-tweak dataset'的数据集，该数据集通过将人类的实时物理修正转换为语义化的语言命令，从而为策略学习生成新的数据集。数据集的具体条数未在论文中提及，但论文中提到了该数据集在机器人多任务学习中的有效性。数据集的应用领域是机器人操作，旨在解决复杂、现实世界中的任务。数据集的创建过程涉及到将人类的物理修正映射到自然语言的修正命令，从而形成'talk-and-tweak'方案。该数据集有助于提高机器人在多任务和长时操作中的性能和效率。

This work proposes a dataset dubbed the 'talk-and-tweak dataset', which generates new training data for policy learning by converting real-time physical corrections from humans into semantically grounded linguistic commands. The exact number of samples in this dataset is not mentioned in the paper, but the paper demonstrates its effectiveness in robotic multi-task learning. The dataset is applied in the field of robotic manipulation, aiming to address complex real-world tasks. The creation process of the dataset involves mapping human physical corrections to natural language correction commands, thereby forming the 'talk-and-tweak' framework. This dataset helps improve the performance and efficiency of robots in multi-task and long-duration manipulation operations.

提供机构：

北京小米机器人技术有限公司

创建时间：

2025-09-17

搜集汇总

数据集介绍

构建方式

Talk-and-Tweak数据集通过人机交互框架构建，采用双执行器强化学习范式。在在线微调阶段，人类操作员通过SpaceMouse设备进行物理干预校正机器人动作，系统将这些低层运动映射为语义化语言指令（如“向右移动”）。干预数据按时间窗口聚合累积位移，超过阈值时生成对应轴向上的自然语言命令，形成三元组（状态、校正动作、语言指令）并存入干预缓冲区。该过程将原始物理校正转化为可解释的语义指导，为策略学习提供高质量、多模态标注数据。

特点

该数据集的核心特点在于融合物理动作与语言指令的双模态交互。其语言指令基于规则映射生成，确保语义一致性与可解释性；数据覆盖多任务场景（螺栓立直、抓取与装配），包含毫米级精确定位需求。数据集支持潜在空间细化学习，通过语言条件引导潜在噪声分布调整，实现细粒度动作控制。此外，数据采集过程兼顾安全性，人类干预占比约15%，有效平衡自主探索与监督校正，提升策略训练的样本效率与稳定性。

使用方法

数据集主要用于训练细化执行器策略，实现语言引导的动作调整。使用时，将三元组数据输入多模态编码器：RGB图像通过ResNet提取特征，语言指令经T5模型编码，拼接后经MLP生成潜在噪声均值。训练目标结合行为克隆损失、Q值最大化损失与正则化约束，确保策略在语言指令下精确调整动作，同时保持与初始策略的一致性。该数据集可扩展至多机器人协同训练，通过集中式学习器整合多源干预数据，提升跨平台策略泛化能力。

背景与挑战

背景概述

Talk-and-Tweak数据集由北京小米机器人技术有限公司与香港城市大学联合研究团队于2025年提出，专注于机器人视觉-语言-动作（VLA）模型的精细化调优。该数据集源于人机协同强化学习框架，旨在解决预训练VLA模型在复杂长时程操作任务中的适应性不足问题。通过将人类物理干预转化为语义化语言指令，数据集为多任务策略学习提供了兼具鲁棒性与可解释性的训练样本，显著提升了机器人精细操作任务的样本效率与泛化能力。

当前挑战

该数据集核心挑战集中于多模态指令映射与长时程任务泛化两方面。在领域问题层面，需解决语义指令与动作空间的精确对齐问题，例如将‘向右移动’等自然语言命令转化为毫米级精度的机械臂运动参数。在构建过程中，需克服物理干预数据到语言指令的实时转换难题，包括运动轨迹的窗口化分割、位移阈值判定以及多轴命令的语义融合。此外，长时程任务中误差累积导致的策略退化问题亦需通过增量式干预机制加以缓解。

常用场景

经典使用场景

在机器人视觉-语言-动作（VLA）模型的多任务精细调优场景中，Talk-and-Tweak数据集通过人类干预与语义化语言指令的融合，为策略学习提供了高质量的数据支持。该数据集广泛应用于复杂操作任务的在线强化学习过程，例如机器人对螺栓的抓取、放置与装配等多阶段操作，能够有效提升模型在真实环境中的适应性与泛化能力。

衍生相关工作

该数据集衍生了基于双执行器架构的VLA模型调优框架，其核心思想被扩展至多机器人协同训练与长时域任务泛化研究中。相关经典工作包括潜在空间强化学习（DSRL）的语义化改进版本，以及结合残差策略与语言反馈的混合学习方法，这些成果进一步推动了机器人模仿学习与在线强化学习的融合发展趋势。

数据集最近研究