PIZZA-DOUGH-BALLFORMATION-sample
收藏Hugging Face2026-01-23 更新2026-01-24 收录
下载链接:
https://huggingface.co/datasets/orgn3ai/PIZZA-DOUGH-BALLFORMATION-sample
下载链接
链接失效反馈官方服务:
资源简介:
该数据集捕捉了面团操作的复杂非线性动力学,这是软体机器人研究的前沿领域。它通过多模态同步阵列记录了专业披萨师傅进行面团球形成过程(boulage),包括自我中心视角(FPV)、全局视角和双臂IMU遥测数据。数据集特别强调软体物理特性的捕捉,如面团变形、材料流动和表面张力等,为世界模型提供了预测材料阻力、弹性和触觉转换所需的物理基础。此外,数据集还提供了精确的时间协议(T1-T4),用于密集动作学习的微动作分割。该数据集是训练高灵巧、力敏感任务的VLA模型的重要资源。
创建时间:
2026-01-19
原始信息汇总
PIZZA-DOUGH-BALLFORMATION-sample 数据集概述
数据集基本信息
- 数据集名称: PIZZA-DOUGH-BALLFORMATION-sample
- 许可证: cc-by-nc-nd-4.0
- 任务类别: 视频分类
- 语言: 英语
- 规模类别: n<1K
- 标签: 第一人称视角、具身人工智能、机器人学、惯性测量单元、真实世界、计算机视觉、数据集、样本数据集
数据集概述
该数据集捕捉了面团操作的复杂非线性动力学,这是“软体”机器人学的前沿领域。它记录了一位专业披萨师傅执行面团成球过程,通过同步的多模态阵列进行录制。该数据集专注于可变形材料,为世界模型提供了预测材料阻力、弹性和触觉转变所需的“物理基础”,这些在刚性物体数据集中是缺失的。它是训练视觉语言动作模型进行高灵巧度、力敏感任务的重要资源。
关键技术特征
- 三源同步: 第一人称视角、右上角全局视图和双臂惯性测量单元遥测数据之间的无缝对齐。
- 软体物理: 面团变形的高分辨率捕捉,为预测材料流动和表面张力提供独特数据。
- 精确时间协议: 为密集动作学习设计的微动作分割,包括T1(接触)、T2(提起)、T3(操作)和T4(释放)四个阶段。
研究用例
- 可变形物体操控: 训练基础模型以理解和预测非刚性、粘弹性材料的行为。
- 跨视图空间映射: 对第一人称视角到右上角视图的转换进行基准测试,以提高机器人在杂乱专业环境中的空间感知能力。
- 本体感觉-视觉融合: 利用惯性测量单元数据,在高灵巧度任务期间将视觉像素流与现实世界的加速度和力向量代理相关联。
- 世界模型错误恢复: 分析T3(操作)阶段,以训练智能体处理“极端情况”,如粘性质地或不均匀的面团稠度。
数据集统计信息
整体统计
- 批次ID: pizza
- 总剪辑数: 26
- 序列数量: 39
- 流数量: 3
- 流类型: 第一人称视角、惯性测量单元、第三人称视角
时长统计
- 总时长: 12.62分钟(757.07秒)
- 平均剪辑时长: 29.12秒(29118.0毫秒)
- 最短剪辑时长: 26.37秒(26367毫秒)
- 最长剪辑时长: 32.83秒(32833毫秒)
剪辑配置
- 填充: 1500毫秒
按流类型统计
第一人称视角流
- 剪辑数量: 13
- 总时长: 6.31分钟(378.53秒)
- 平均剪辑时长: 29.12秒(29118.0毫秒)
- 最短剪辑时长: 26.37秒(26367毫秒)
- 最长剪辑时长: 32.83秒(32833毫秒)
第三人称视角流
- 剪辑数量: 13
- 总时长: 6.31分钟(378.53秒)
- 平均剪辑时长: 29.12秒(29118.0毫秒)
- 最短剪辑时长: 26.37秒(26367毫秒)
- 最长剪辑时长: 32.83秒(32833毫秒)
数据集结构
目录结构
dataset/ ├── data-*.arrow ├── dataset_info.json ├── dataset_metadata.json ├── state.json ├── README.md ├── medias/ │ └── mosaic.mp4 └── videos/ └── ego/ └── imu/ └── third/
数据集格式
- 分割: 所有26个同步场景均位于单个
train分割中。 - 每个示例包含:
- 同步视频列: 每种流类型一列。
- 场景元数据:
scene_id、sync_id、duration_ms、padding_ms、fps。 - 丰富的元数据字典: 包含任务、环境、音频信息和同步细节。
- 同步性: 单个示例中的所有视频都是同步的,并对应于同一时刻。
数据集特征
每个示例包含以下特征:
scene_id: 唯一场景标识符。sync_id: 链接同步剪辑的同步ID。duration_ms: 同步剪辑的持续时间(毫秒,包含填充)。padding_ms: 应用于剪辑的填充(在开始和结束处添加,总填充 = padding_ms × 2)。fps: 每秒帧数。batch_id: 批次标识符。dataset_name: 配置中的数据集名称。- 每个流一列: 每个流名称有自己的列,包含指向视频文件的字符串路径。
metadata: 包含任务标识符、环境描述、是否有音频、流数量、流名称列表、原始序列ID列表和同步偏移量列表的字典。
使用说明
- 加载数据集: 可使用Hugging Face
datasets库和snapshot_download功能加载。 - 访问数据: 示例代码展示了如何随机选择条目并检查每个流的视频属性。
- 标签: 每个示例包含标签列表,每个标签包含时间戳和标签文本。
附加说明
- 统一结构: 该数据集采用统一结构,每个示例包含所有同步视频流。
- 同步: 同一示例中的视频自动同步,共享相同的
sync_id。 - 流键: 可用流键列在
dataset_metadata.json的"flux"键下。 - 视频路径: 视频路径存储为字符串,相对于数据集根目录。
许可与联系
- 许可证: 本数据集采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可。
- 商业许可: 完整数据集和定制收集服务可用于商业许可和大规模研发。
- 联系: orgn3ai@gmail.com
搜集汇总
数据集介绍

构建方式
在软体机器人学领域,PIZZA-DOUGH-BALLFORMATION-sample数据集通过专业披萨师傅执行面团成球过程的真实场景构建而成。该过程采用多模态同步采集阵列,集成了第一人称视角、全局俯视视角以及双臂惯性测量单元数据,实现了视觉意图、空间上下文与本体感知真值的三源无缝对齐。数据采集遵循精密的时间协议,将微观动作细分为接触、提升、操纵与释放四个阶段,为密集动作学习提供了结构化标注,从而精准捕捉了面团这一可变形材料在操作中的非线性动力学特性。
特点
该数据集的核心特点在于其针对软体物理的高保真记录能力,能够清晰呈现面团的变形、流动与表面张力变化,弥补了刚性物体数据集中缺失的材料阻力与弹性信息。其多视角同步设计支持自我中心视角与全局视角的空间映射研究,而惯性测量单元数据的融入则实现了视觉像素流与实际加速度、力矢量代理的关联,为跨模态融合提供了坚实基础。此外,数据集通过明确的阶段划分,尤其聚焦于操纵阶段所蕴含的隐性知识,为处理粘性纹理或不均匀材质等边缘情况的世界模型训练提供了独特资源。
使用方法
研究人员可通过Hugging Face平台加载该数据集,利用提供的Python代码示例访问以Arrow格式存储的同步视频流与丰富元数据。每个数据样本均包含场景标识、同步ID、持续时间及代表不同数据流的视频列,如自我视角、惯性测量单元和第三人称视角。使用时可随机选取样本,解析视频路径并借助OpenCV等工具检查视频属性,同时获取按时间协议标注的动作阶段标签。该数据集专为训练视觉语言动作模型、探索可变形物体操控及跨模态世界模型预测等前沿研究任务而设计。
背景与挑战
背景概述
在具身人工智能与软体机器人学领域,对可变形物体的灵巧操作一直是核心研究难题。PIZZA-DOUGH-BALLFORMATION-sample数据集应运而生,专注于捕捉披萨面团球形成过程中的复杂非线性动力学。该数据集由专业团队采集,通过同步多模态阵列记录专业披萨师傅的操作,融合了自我中心视角、全局视角与惯性测量单元数据。其核心在于为世界模型提供‘物理基础’,以预测刚性物体数据集中缺失的材料阻力、弹性与触觉转变,从而推动视觉语言动作模型在需要高灵巧性与力感知任务上的训练与发展。
当前挑战
该数据集旨在解决软体机器人领域中可变形物体操控的固有挑战,其核心问题在于如何让机器理解并预测具有粘弹性、非刚性材料的动态行为,这远比刚性物体分类更为复杂。在构建过程中,挑战主要体现在实现多源数据的高精度同步,确保自我中心视角、全局视角与惯性测量单元数据在时间上的严格对齐。同时,精准捕捉面团在接触、提升、塑形与释放各微观阶段的形变细节,并将专业师傅的‘隐性知识’转化为可量化的时序协议,亦是数据集构建的关键难点。
常用场景
经典使用场景
在软体机器人学领域,PIZZA-DOUGH-BALLFORMATION-sample数据集为研究可变形物体操控提供了经典的多模态基准。该数据集通过同步记录披萨面团球形成过程,融合了自我中心视角、全局视角和惯性测量单元数据,精准捕捉了面团在接触、提升、塑形和释放阶段的非线性形变与力学特性。这一场景被广泛用于训练视觉语言动作模型,以学习高灵巧性、力敏感任务中的物理交互规律,为软体操控算法的开发奠定了数据基础。
解决学术问题
该数据集有效解决了可变形物体操控中物理接地与预测建模的核心学术难题。传统刚性物体数据集难以模拟材料的粘弹性、表面张力及形变恢复等复杂行为,而本数据集通过高分辨率记录面团微观形变,为世界模型提供了预测材料阻力、弹性及触觉转变的关键物理依据。它填补了软体物理交互数据空白,推动了具身智能在非结构化环境中对可变形材料的理解与操控能力。
衍生相关工作
基于该数据集衍生的经典工作主要集中在可变形物体操控的模型架构与算法创新上。例如,OmniVLA等基础模型利用其学习软体物理预测与跨模态对齐;研究团队通过T3操纵阶段分析,开发了处理粘性纹理、材质不均等边缘情况的误差恢复策略。此外,数据集还促进了FPV到全局视图的转换基准测试,以及本体感觉与视觉数据融合的跨模态学习方法发展。
以上内容由遇见数据集搜集并总结生成



