bytedance_robot_benchmark_20

Hugging Face2024-12-26 更新2024-12-27 收录

下载链接：

https://huggingface.co/datasets/robovlms/bytedance_robot_benchmark_20

下载链接

链接失效反馈

官方服务：

资源简介：

ByteDance Robot Benchmark (BDRBench-20) 是一个视觉-语言-动作（VLA）数据集，包含8K高质量轨迹，旨在评估VLA模型在现实场景中的性能。该数据集包括20个常见操作任务，如拾取和放置、倒水和开/关动作。数据集分为训练集和验证集，包含注释文件和视频文件。注释文件描述了任务、视频路径、动作和状态信息，视频文件记录了任务的执行过程。数据集设计用于训练和评估VLA模型在现实场景中的应用。

ByteDance Robot Benchmark (BDRBench-20) is a vision-language-action (VLA) dataset containing 8K high-quality trajectories, designed to evaluate the performance of VLA models in real-world scenarios. It includes 20 common manipulation tasks such as pick-and-place, pouring, and on/off operations. The dataset is divided into training and validation sets, and contains annotation files and video files. The annotation files describe task details, video paths, actions and state information, while the video files record the execution process of each task. This dataset is intended for training and evaluating the real-world application of VLA models.

创建时间：

2024-12-17

搜集汇总

数据集介绍

构建方式

ByteDance Robot Benchmark with 20 Tasks (BDRBench-20) 数据集的构建基于真实世界的机器人操作场景，涵盖了20种常见的操作任务，如抓取、放置、倾倒等。数据采集过程中，机器人通过远程操控执行任务，并记录其操作轨迹。每个任务的操作过程被分为多个子任务，分别进行视频录制和标注。数据集包含8,000条高质量轨迹，分为训练集和验证集，分别存储在`anns`和`media`两个子目录中。`anns`目录包含每个子任务的标注文件，而`media`目录则存储了每个任务的视频记录。

特点

BDRBench-20 数据集的特点在于其多模态数据的丰富性，涵盖了视觉、语言和动作三个维度的信息。每个任务的操作过程通过静态摄像头和手腕摄像头进行双视角录制，确保数据的全面性。标注文件详细记录了每个时间步的动作和状态信息，动作以7维向量表示，包括平移、旋转和夹爪状态。数据集还提供了视频的裁剪信息，帮助减少背景干扰。此外，数据集的训练集和验证集分别包含7,440和638个任务轨迹，确保了模型的训练和评估需求。

使用方法

使用 BDRBench-20 数据集时，首先需要加载标注文件和视频数据。标注文件中的`texts`字段提供了任务的文字描述，`videos`字段则包含了视频路径和帧范围信息。`action`和`state`字段分别记录了每个时间步的动作和状态信息，建议使用相对状态进行模型训练，以提高模型在不同环境中的适应性。视频数据可以通过`crop`字段进行裁剪，以减少背景干扰。训练时，可以利用`train`和`val`数据集进行模型训练和验证，确保模型的泛化能力。

背景与挑战

背景概述

ByteDance Robot Benchmark with 20 Tasks (BDRBench-20) 是由字节跳动研究团队于2024年发布的一个视觉-语言-动作（VLA）数据集，旨在评估VLA模型在真实场景中的性能。该数据集包含8,000条高质量轨迹，涵盖了20种常见的机器人操作任务，如拾取与放置、倾倒、开关等。BDRBench-20的设计初衷是为训练和评估VLA模型提供一个真实世界的基准，推动机器人操作任务的智能化发展。该数据集的发布标志着机器人研究领域在视觉-语言-动作模型应用方面迈出了重要一步，为相关研究提供了丰富的实验数据。

当前挑战

BDRBench-20数据集在解决机器人操作任务的视觉-语言-动作建模方面面临多重挑战。首先，任务多样性要求模型能够处理复杂的多模态输入，包括视觉、语言和动作数据，这对模型的泛化能力提出了较高要求。其次，数据采集过程中需要确保轨迹的高质量和一致性，这对机器人操作的精确性和稳定性提出了挑战。此外，数据集中的动作和状态数据以相对坐标系表示，这要求模型能够适应不同环境下的坐标变换，增加了模型训练的复杂性。最后，数据集的规模虽然较大，但如何有效利用这些数据进行模型训练，尤其是在跨任务迁移学习方面，仍是一个亟待解决的问题。

常用场景

经典使用场景

在机器人视觉-语言-动作（VLA）模型的研究中，BDRBench-20数据集被广泛用于评估模型在真实场景中的表现。该数据集包含20种常见的操作任务，如拾取与放置、倾倒和开关动作等，涵盖了机器人日常操作中的多种复杂场景。通过提供高质量的轨迹数据和详细的视频记录，研究人员能够深入分析模型在不同任务中的表现，并优化其在实际应用中的性能。

实际应用

在实际应用中，BDRBench-20数据集为机器人操作系统的开发和优化提供了重要支持。例如，在家庭服务机器人领域，该数据集可以帮助开发人员训练机器人完成复杂的家务任务，如拾取物品、倾倒液体和开关电器等。通过利用数据集中的高质量轨迹数据，机器人能够更准确地理解和执行人类指令，从而提升其在家庭环境中的实用性和用户体验。

衍生相关工作

BDRBench-20数据集衍生了一系列经典的研究工作，特别是在VLA模型领域。例如，基于该数据集的研究提出了GR-2模型，该模型结合了视频、语言和动作数据，能够生成复杂的机器人操作策略。此外，数据集还被用于开发通用机器人策略，探索了在构建VLA模型时哪些因素最为关键。这些研究工作不仅推动了机器人技术的发展，也为未来的研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集