fidelity-data-factory

Hugging Face2025-12-22 更新2025-12-23 收录

下载链接：

https://huggingface.co/datasets/sanskxr02/fidelity-data-factory

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Fidelity Data Factory – Egocentric State–Action Transitions (v0)，包含从真实世界的第一人称视角视频中提取的结构化状态-动作-状态转换。每个数据点是一个短时间转换，形式为(s_t, a_t, s_{t+1})，这些转换来自在真实工厂环境中记录的单目第一人称视角视频。数据集包含约200k+的转换，存储为JSONL格式。每个记录包含状态(s)、动作(a)和下一个状态(s_prime)的详细信息。状态(s)包括自我姿态、自我速度、手部状态、实体（具有图像空间位置的对象）和元数据（视频ID、时间戳）；动作(a)包括自我增量、手部增量和交互增量；下一个状态(s_prime)与状态(s)结构相同，表示下一个时间步。数据集旨在为从大规模人类活动数据中学习动态和表示提供早期基础设施，适用于世界模型研究、离线强化学习、视觉-语言-动作预训练、从人类活动中学习动态以及从第一人称视角视频中学习表示等领域。数据集存在一些限制，如仅包含单目视频、无力/扭矩信号、无任务标签以及包含估计噪声。原始视频数据由BuildAI提供，丰富和处理由Fidelity Dynamics完成。

创建时间：

2025-12-21

原始信息汇总

Fidelity Data Factory – Egocentric State–Action Transitions (v0) 数据集概述

数据集基本信息

数据集名称: Fidelity Data Factory – Egocentric State–Action Transitions (v0)
许可证: cc-by-4.0
数据规模: 100K<n<1M
任务类别: 强化学习、表征学习、视频理解
标签: 自我中心视角、机器人学、状态-动作-状态、世界模型、视觉-语言-动作、人机交互、模仿学习、离线强化学习

数据集描述

该存储库包含从真实世界自我中心视角视频中提取的结构化状态-动作-状态′转换的初始版本。目标是提供从大规模人类活动数据中学习动态和表征的早期基础设施。

数据内容

数据量: 约20万条以上转换记录
视角: 自我中心视角（头戴式/胸戴式）
环境: 真实的工业环境
格式: JSONL格式

数据结构（简化）

每条记录包含：

状态 (s):
- ego_pose (自我姿态)
- ego_velocity (自我速度)
- hand_state (手部状态)
- entities (带有图像空间位置信息的物体)
- meta (视频ID、时间戳)
动作 (a):
- ego_delta (自我变化量)
- hand_delta (手部变化量)
- interaction_delta (交互变化量)
下一状态 (s_prime): 与状态s结构相同，代表下一时间步

完整结构详情请参考 schema.json。

预期用途

该数据集可用于：

世界模型研究
离线强化学习
视觉-语言-动作预训练
从人类活动中学习动态
从自我中心视角视频中进行表征学习

局限性

仅包含单目视频
无力/扭矩信号
无任务标签
包含估计噪声

致谢

原始视频数据由 BuildAI 提供。
数据丰富和处理由 Fidelity Dynamics 完成。

搜集汇总

数据集介绍

构建方式

在机器人学与视觉感知领域，真实世界的人类活动数据为学习动态模型提供了宝贵资源。Fidelity Data Factory数据集通过从真实工厂环境中采集的单目自我中心视角视频，提取了约20万条状态-动作-状态'转换序列。这些数据源自头戴或胸戴摄像头记录的工业场景，经过结构化处理，以JSONL格式存储每条转换记录，涵盖了自我姿态、手部状态及实体位置等多模态信息，为研究大规模人类活动动态奠定了基础设施。

特点

该数据集以自我中心视角为核心，聚焦于工业环境中的状态-动作转换，其特点在于提供了高真实度的场景数据。每条记录均包含当前状态、执行动作及下一状态的完整结构，其中状态信息融合了自我运动、手部交互及图像空间中的物体实体，动作则涵盖自我与手部的增量变化。数据集专为世界模型、离线强化学习及视觉-语言-动作预训练等研究方向设计，强调了从人类活动中学习动态表示的潜力，同时避免了机器人特定信号如扭矩的引入，确保了研究的通用性。

使用方法

对于动态表示学习与离线强化学习的研究者，该数据集可直接应用于模型训练与验证。用户可通过解析JSONL格式的记录，提取状态、动作及下一状态的三元组，进而构建转换模型或策略网络。数据集适用于世界模型的仿真训练、视觉-语言-动作任务的预训练基础，以及从人类演示中学习动态表示的方法探索。需要注意的是，数据仅基于单目视频且不含任务标签，建议在噪声估计和有限信号条件下谨慎评估模型性能。

背景与挑战

背景概述

随着人工智能在具身智能与机器人领域的深入发展，从真实世界的人类活动中学习动态模型与表征成为关键研究方向。Fidelity Data Factory数据集由Fidelity Dynamics团队于近期构建，其核心研究问题聚焦于如何从大规模、非结构化的第一人称视角视频中，提取出结构化的状态-动作-状态转移数据，以支持世界模型、离线强化学习及视觉-语言-动作预训练等前沿探索。该数据集源自真实工业环境，通过头戴或胸戴设备采集，为理解人类在复杂场景下的交互动态提供了宝贵资源，对推动机器人模仿学习与通用行为模型的发展具有重要影响力。

当前挑战

该数据集旨在解决从真实世界人类活动中学习动态模型的根本挑战，其核心问题在于如何将高维、连续的视觉观测转化为可用于规划与推理的紧凑状态表示，并准确捕捉动作与状态变化间的因果关系。在构建过程中，团队面临多重技术挑战：从单目视觉流中稳健地估计自我姿态、手部状态及物体实体位置会引入不可避免的感知噪声；在缺乏力/扭矩信号与明确任务标签的情况下，动作的语义解释与意图推断变得尤为困难；此外，在真实工厂环境中处理复杂遮挡、动态光照变化以及多样化的交互模式，对数据标注与质量保证提出了极高要求。

常用场景

经典使用场景

在机器人学和人工智能领域，学习真实世界中的动态模型是推动智能体理解环境交互的核心挑战。Fidelity Data Factory数据集通过提供从真实工厂环境中采集的自我中心视角状态-动作-状态转移数据，为世界模型研究提供了宝贵的实验基础。研究者可利用该数据集训练模型预测人类活动引发的状态变化，从而模拟复杂工业场景下的动态过程，为构建更鲁棒的预测性模型奠定数据基石。

解决学术问题

该数据集直接应对了从大规模人类活动数据中学习动态和表示的学术难题。通过结构化记录自我中心视频中的状态与动作转移，它使得离线强化学习、表示学习等方向得以在真实世界数据上验证算法有效性。其意义在于弥合了模拟环境与真实场景间的鸿沟，为研究人类行为模式、环境交互动力学提供了可扩展的数据支撑，推动了视觉-语言-动作预训练等前沿课题的实证探索。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在世界模型构建与离线强化学习算法优化。例如，研究者利用其状态-动作转移序列训练视频预测模型，以生成逼真的环境动态模拟；同时，该数据也被用于评估离线策略学习方法的泛化能力，推动如保守Q学习等算法在真实数据上的性能验证。这些工作进一步拓展了自我中心视觉表示学习在机器人感知与控制中的融合应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集