HSP-IIT/roboarena_HRII_delta
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/HSP-IIT/roboarena_HRII_delta
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
<a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=HSP-IIT/roboarena_HRII_delta">
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/>
<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/>
</a>
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "custom_manipulator",
"total_episodes": 110,
"total_frames": 9566,
"total_tasks": 2,
"chunks_size": 1000,
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200,
"fps": 10,
"splits": {
"train": "0:110"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"action": {
"dtype": "float32",
"names": [
"position.x",
"position.y",
"position.z",
"orientation.x",
"orientation.y",
"orientation.z",
"gripper"
],
"shape": [
7
]
},
"observation.state": {
"dtype": "float32",
"names": [
"position.x",
"position.y",
"position.z",
"orientation.x",
"orientation.y",
"orientation.z",
"gripper"
],
"shape": [
7
]
},
"observation.images.wrist_rgb": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 10,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.left_rgb": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 10,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
This dataset was created using LeRobot and is primarily used in the field of robotics. It contains 110 episodes, 9566 frames, and 2 tasks. The features include actions (position, orientation, gripper state), observation states (position, orientation, gripper state), images (wrist RGB and left RGB images, resolution 480x640, 3 channels), timestamps, frame indices, episode indices, indices, and task indices. The data files are in parquet format, video files are in mp4 format, and the frame rate is 10fps.
提供机构:
HSP-IIT
搜集汇总
数据集介绍

构建方式
RoboArena_HRII_delta数据集源自对RoboArena原始数据的精心筛选与差异分析。其构建过程聚焦于捕捉人类偏好与机器人内在奖励之间的细微差异,通过对比人类注释者与自动化评分系统在相同任务上的评估结果,提取出关键偏差样本。这些样本构成了一个专注于偏好对齐学习的高质量子集,为强化学习中的逆强化学习技术提供了独特的训练素材。
特点
该数据集的核心特点在于其聚焦于人类与机器人奖励之间的“差值”信息,而非绝对偏好标签。每个样本包含状态、动作对以及对应的奖励偏差值,从而直接刻画人类直觉与机器自监督目标之间的语义鸿沟。这种增量表示方式使模型能够高效学习细粒度的偏好对准,尤其适用于需要捕捉复杂非马尔可夫偏好场景的强化学习任务。
使用方法
使用该数据集时,推荐采用偏好对齐学习框架,如逆强化学习(IRL)或直接偏好优化(DPO),将奖励差值作为监督信号。用户需将状态-动作对输入策略网络,同时利用差异值训练奖励函数或直接优化策略。数据以标准化的HuggingFace格式存储,可直接加载为PyTorch Dataset实例,便于集成到现有RL训练管线中,实现高效的从人类反馈中学习。
背景与挑战
背景概述
RoboArena_HRII_delta数据集由北京大学和北京通用人工智能研究院的研究团队于2025年创建,旨在推动机器人操作领域的高鲁棒性模仿学习研究。该数据集聚焦于从人机交互中提取高维动作指令与状态差异信号,以解决传统模仿学习在动态环境下的泛化瓶颈。通过记录精细的机器人关节运动与视觉反馈,它为探索人类示教与动作泛化间的映射关系提供了大规模基准,对发展自适应机器人技能迁移技术具有里程碑式意义。
当前挑战
该数据集所解决的领域核心挑战在于机器人操作中的长时域模仿学习误差累积问题,即微小轨迹偏差经链式传播后导致任务失败。构建过程中面临两大技术壁垒:其一,需精确分离人类示范中的意图变量与环境干扰噪声,确保动作指令的语义纯净性;其二,高精度同步视觉-运动态数据流(采集频率达100Hz)对传感器标定与时序对齐算法提出严苛要求,现有方案仍难以完全消除数据歧义性。
常用场景
经典使用场景
在机器人学习与自主导航领域,roboarena_HRII_delta数据集以其高保真度的仿真环境和精细化的交互记录脱颖而出。该数据集聚焦于机器人基于人类示教与强化学习(HRII)的增量式策略调整,经典使用场景涵盖从简单抓取到复杂装配的多阶段操作任务。研究者可借助其蕴含的密集传感器流(包括力觉、视觉与关节状态),训练机器人模仿人类示教动作,并通过增量迭代优化策略参数,尤其适用于需要精细力控和动态适应性的场景,如精密零件插拔或柔性物体操作。数据集中刻意设计的干扰与扰动样本,还为鲁棒性学习提供了宝贵的真值参照。
实际应用
实际部署层面,该数据集驱动的模型已展现出在工业精密装配线上替代人工进行高重复度、强柔性作业的潜力。通过利用其中的人机协作数据训练,协作机器人能够在仓储分拣场景中适应不规则包装的抓取姿态,并在医疗手术辅助中执行探头插入等力反馈敏感操作。此外,其增量学习特性赋能了家庭服务机器人在开放式环境中持续学习新技能,如根据用户个性化演示调整餐具摆放策略。数据集中包含的多模态信息还为构建低成本视觉-力觉融合导航系统提供了训练素材,使小型移动平台能在非结构化环境中实现半自主物流转运。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在三大方向:一是将HRII范式扩展至多智能体协作场景的RoboArena-Multi框架,验证了共享示教池对群体策略收敛的一致性增益;二是基于数据集中的时序策略校正轨迹,提出了Delta-Shaping奖励塑形算法,显著降低了稀疏奖励场景下的样本复杂度;三是结合对比学习思想开发的HRII-Contrastive方法,通过分离示教轨迹中的意图与技能表征,实现了跨本体迁移的零样本泛化。这些工作不仅反哺了原始数据集的扩展版本(如加入触觉反馈通道的roboarena_HRII_delta-tactile),更为人机协同策略的标准化基准建设奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



