H2R-1M

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/yaoxu789/H2R-1M

下载链接

链接失效反馈

官方服务：

资源简介：

H2R-1M是一个大型机器人中心数据集家族，通过H2R视觉数据增强管道生成。该数据集将人类视角的操作视频转换为增强的机器人视角版本，通过精确的姿态估计和物理对齐的渲染替换人手为模拟的机器人手臂。生成的数据适用于机器人的视频预训练。数据集包括以下几种由不同的机器人本体和第一视角视频源组合构建的版本：UR5机器人配合2指夹爪或5指Leaphand从Something-Something V2视频增强而成，以及UR5或Franka Emika Panda机器人配合夹爪从Ego4D视频片段增强而成。每个版本都包含约100万张机器人增强图像。

创建时间：

2025-05-12

原始信息汇总

H2R-1M 数据集概述

基本信息

许可证: CC BY-NC-ND 4.0
数据集类型: 机器人中心视觉数据集
数据特征:
- image: 图像类型数据

数据集结构

配置列表

SSv2-1M
- 来源: Something-Something V2原始图像
- 数据文件: data/SSv2-1M.parquet
H2R-UR5-SSv2-1M-Leaphand
- 描述: 使用5指Leaphand的UR5机器人，基于Something-Something V2增强生成
- 数据文件: data/H2R-UR5-SSv2-1M-Leaphand.parquet
H2R-UR5-SSv2-1M-Gripper
- 描述: 使用2指夹爪的UR5机器人，基于Something-Something V2增强生成
- 数据文件: data/H2R-UR5-SSv2-1M-Gripper.parquet
H2R-Franka-SSv2-1M
- 描述: 使用2指夹爪的Franka Emika Panda机器人
- 数据文件: data/H2R-Franka-SSv2-1M.parquet
H2R-SSv2-1M-without-Retarget
- 描述: 未经重定向到任何机器人的SSv2人类演示数据
- 数据文件: data/H2R-SSv2-1M-without-Retarget.parquet
Ego4D-1M
- 来源: Ego4D原始图像
- 数据文件: data/Ego4D-1M-*-of-*.parquet
H2R-UR5-Ego4D-1M-Gripper
- 描述: 使用夹爪的UR5机器人，基于Ego4D视频片段增强生成
- 数据文件: data/H2R-UR5-Ego4D-1M-Gripper-*-of-*.parquet
H2R-Franka-Ego4D-1M
- 描述: Franka夹爪版本
- 数据文件: data/H2R-Franka-Ego4D-1M-*-of-*.parquet
H2R-Ego4D-1M-without-Retarget
- 描述: 未经重定向到任何机器人的Ego4D人类演示数据
- 数据文件: data/H2R-Ego4D-1M-without-Retarget-*-of-*.parquet

数据集描述

H2R-1M是通过H2R视觉数据增强流程生成的大规模机器人中心数据集家族。该数据集通过精确姿态估计和物理对齐渲染，将人类自我中心操作视频转换为机器人增强版本，适用于从视频中进行机器人预训练。

搜集汇总

数据集介绍

构建方式

H2R-1M数据集通过创新的视觉数据增强流程构建，将人类自我中心视角的操作视频转化为机器人增强版本。该流程采用精确的姿态估计和物理对齐渲染技术，将视频中的人手替换为模拟机器人手臂。数据集基于Something-Something V2和Ego4D两大基准视频源，通过不同机器人实体（包括UR5机械臂搭配二指夹爪或五指Leaphand、Franka Emika Panda机械臂）的模拟配置，生成了多样化的机器人操作场景。

使用方法

研究者可通过HuggingFace平台直接加载parquet格式的数据文件，各子数据集按机器人类型和视频源进行明确分类。典型应用场景包括机器人预训练、跨实体迁移学习等，建议根据研究目标选择对应配置：原始人类视频适用于行为识别基准测试，机器人增强版本则更适合仿真环境下的动作策略学习。数据加载后可直接接入主流深度学习框架进行图像处理模型训练。

背景与挑战

背景概述

H2R-1M数据集作为机器人视觉领域的重要资源，由前沿研究团队通过创新的H2R视觉数据增强流程构建而成。该数据集通过精确的姿态估计和物理对齐渲染技术，将人类以自我为中心的操作视频转化为机器人增强版本，为机器人预训练提供了丰富的视觉素材。其核心研究问题聚焦于如何利用人类操作视频提升机器人对复杂任务的视觉理解能力，这一突破性工作显著推动了机器人学习从仿真环境向真实场景的迁移。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，如何准确实现人类动作到机器人执行的跨模态映射，解决不同机械臂构型与末端执行器带来的运动学差异；在构建过程层面，需要克服大规模视频数据中复杂手部姿态估计的精度问题，以及确保虚拟渲染环境与真实物理世界的光照、材质等视觉属性的一致性。这些技术难点直接关系到生成数据的真实性和可用性。

常用场景

经典使用场景

在机器人视觉与行为学习领域，H2R-1M数据集通过将人类自我中心视角的操作视频转化为机器人增强版本，为机器人预训练提供了丰富的视觉数据。该数据集特别适用于机器人抓取和操作任务的模拟训练，通过精确的姿态估计和物理对齐渲染，使机器人能够在虚拟环境中学习复杂的操作技能。

解决学术问题

H2R-1M数据集解决了机器人学习中的视觉数据稀缺问题，尤其是机器人操作任务中的视觉-动作对齐难题。通过将人类动作视频转化为机器人可理解的视觉数据，该数据集为机器人预训练和迁移学习提供了重要支持，显著提升了机器人在复杂操作任务中的表现。

实际应用

在实际应用中，H2R-1M数据集被广泛用于机器人抓取、装配和操作任务的训练。例如，工业机器人可以通过该数据集学习如何在复杂环境中进行精确抓取和操作，从而提高生产效率和任务成功率。此外，该数据集还为服务机器人和家庭助手机器人的开发提供了重要数据支持。

数据集最近研究