record

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/Gravatar44/record

下载链接

链接失效反馈

官方服务：

资源简介：

DreamDojo 是一个基于 44,000 小时人类自我中心视角数据预训练的通用机器人世界模型。该数据集展示了前所未有的对多样化物体和环境的泛化能力。相关资源包括项目主页、研究论文和代码仓库。数据集采用 CC-BY-NC-4.0 许可协议。该模型适用于机器人学习、计算机视觉和人工智能领域的研究与应用。

创建时间：

2026-03-05

原始信息汇总

数据集概述

基本信息

数据集名称: record
发布者: Gravatar44
许可证: CC BY-NC 4.0

数据集简介

该数据集与DreamDojo项目相关。DreamDojo是一个通用机器人世界模型，在44,000小时的人类第一人称视角数据上进行了预训练，在多样化的物体和环境上展现出前所未有的泛化能力。

使用说明

具体使用方法请参考代码仓库：https://github.com/NVIDIA/DreamDojo

引用信息

如需引用，请使用以下BibTeX格式： bibtex @article{gao2026dreamdojo, title={DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos}, author={Shenyuan Gao and William Liang and Kaiyuan Zheng and Ayaan Malik and Seonghyeon Ye and Sihyun Yu and Wei-Cheng Tseng and Yuzhu Dong and Kaichun Mo and Chen-Hsuan Lin and Qianli Ma and Seungjun Nah and Loic Magne and Jiannan Xiang and Yuqi Xie and Ruijie Zheng and Dantong Niu and You Liang Tan and K.R. Zentner and George Kurian and Suneel Indupuru and Pooya Jannaty and Jinwei Gu and Jun Zhang and Jitendra Malik and Pieter Abbeel and Ming-Yu Liu and Yuke Zhu and Joel Jang and Linxi "Jim" Fan}, journal={arXiv preprint arXiv:2602.06949}, year={2026} }

搜集汇总

数据集介绍

构建方式

在机器人学与人工智能交叉领域，DreamDojo数据集的构建体现了大规模多模态学习的先进理念。该数据集的核心来源于长达四万四千小时的人类第一视角视频数据，这些数据以非结构化的方式记录了人类在日常环境中的复杂操作与互动。通过精心设计的自动化与半自动化流程，原始视频被转化为富含时空信息的序列，并辅以动作、物体及场景的语义标注。构建过程强调数据的多样性与真实性，确保了样本覆盖广泛的物体类别、操作任务及环境背景，为模型提供了学习通用世界表征的坚实基础。

特点

DreamDojo数据集最显著的特征在于其前所未有的规模与泛化能力。数据总量达到数万小时级别，且全部源自真实人类的第一视角，这使其天然蕴含了丰富的物理交互先验与行为模式。数据内容跨越了多样化的日常物体、复杂操作场景以及非结构化环境，从而能够支撑模型学习超越特定任务或对象的通用知识。其多模态特性整合了视觉序列与对应的动作语义，为构建能够理解和预测物理世界动态的机器人世界模型提供了关键养分。

使用方法

该数据集主要服务于通用机器人世界模型的预训练与研究。使用者可通过其官方代码库获取数据访问与处理的详细指南。典型的使用流程涉及加载经过预处理的多模态序列数据，将其输入到基于Transformer等架构的模型中，以进行自监督或监督学习。研究人员可利用该数据集训练模型理解视觉场景、预测动作后果以及规划机器人行为，进而评估模型在未见过的物体、任务及环境中的零样本泛化性能。其最终目标是为开发具备通用物理常识与操作能力的智能体提供核心数据支撑。

背景与挑战

背景概述

DreamDojo数据集于2026年由NVIDIA等机构的研究团队发布，标志着机器人世界模型构建领域的一项重大突破。该数据集的核心研究问题在于如何利用大规模人类第一视角视频数据，训练出能够泛化至多样化物体与环境的通用型机器人世界模型。通过整合高达44,000小时的人类自我中心视觉数据，DreamDojo旨在为机器人提供对物理世界动态交互的深刻理解，从而推动具身智能向更灵活、更适应现实复杂场景的方向演进，对机器人学、计算机视觉与强化学习的交叉领域产生了深远影响。

当前挑战

DreamDojo数据集所应对的领域挑战，在于解决机器人世界模型长期以来面临的泛化能力不足问题，即如何让模型在未见过的物体、环境及任务中仍能保持稳健的预测与控制性能。在构建过程中，研究团队需克服数据规模庞大带来的存储与处理难题，确保视频数据的时空对齐与标注质量，同时需设计有效的预训练架构以从异构、非结构化的视觉流中提取可迁移的物理与交互知识，这些技术障碍共同构成了数据集创建的核心挑战。

常用场景

经典使用场景

在机器人学习领域，DreamDojo数据集以其海量的人类第一视角视频数据，为构建通用机器人世界模型提供了核心训练资源。该数据集最经典的使用场景在于支持大规模预训练，使模型能够从丰富的真实世界交互中学习物理规律、物体属性和环境动态，从而实现对多样化任务和场景的零样本或小样本泛化。研究人员利用这些数据训练出的模型，能够在未见过的物体和环境中执行复杂的操作任务，推动了机器人从专用向通用智能的演进。

实际应用

在实际应用层面，基于DreamDojo数据集训练的通用世界模型，为开发适应复杂现实环境的服务机器人、工业自动化系统以及家庭辅助设备提供了关键技术支持。这些模型能够理解日常物品的功能、预测人类行为的意图，并在动态、非结构化的环境中进行安全有效的决策与操作。例如，在物流分拣、老人看护或家庭清洁等场景中，此类技术有望提升机器人的自主性、灵活性和人机协作的自然度，推动智能机器人从研究走向广泛落地。

衍生相关工作

围绕DreamDojo数据集，已衍生出一系列探索通用机器人智能的经典研究工作。其核心论文《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》系统阐述了基于大规模人类视频预训练世界模型的方法论与卓越性能。该工作进一步激发了社区对多模态表示学习、视频预测生成、以及从观察中学习技能（Learning from Demonstration）等方向的深入研究，为后续构建更高效、更鲁棒的通用智能体架构提供了重要的范式参考和基准平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集