MEAT-CUT-sample
收藏MEAT-CUT-sample 数据集概述
数据集基本信息
- 数据集名称: MEAT-CUT-sample
- 托管平台: Hugging Face Hub
- 数据集地址: https://huggingface.co/datasets/orgn3ai/MEAT-CUT-sample
- 许可证: cc-by-nc-nd-4.0
- 任务类别: 视频分类、动作识别
- 语言: 英语
- 标签: 第一人称视角、具身人工智能、机器人学、真实世界、计算机视觉、数据集、样本数据集
- 规模类别: n<1K
数据集概述
该数据集提供了一个高质量、多视角同步采集的专业屠宰环境中专家程序性任务的样本。它特别关注非刚性和可变形物体(肉类、香肠馅料和肠衣)的复杂操作,这是当前机器人学和计算机视觉研究中的一个重大挑战。
核心技术特征
- 同步多视角第一人称与第三人称: 包含完美对齐的自我中心视角和多个第三人称视角。
- 专家人类旁白: 每个任务都配有真人语音旁白,解释每个手势背后的意图、触觉反馈和专业启发式方法。
- 非刚性物理: 捕捉香肠制作过程中复杂的材料行为,如塑性、弹性和剪切。
- 多模态基础: 提供视觉动作与专家口头指令之间的直接联系,适合训练视觉语言模型。
- 高质量、多视角同步: 所有视角都精确时间对齐,以确保无缝的跨模态理解。
研究用例
- 具身人工智能与世界模型: 训练智能体预测与可变形有机物质交互的物理后果。
- 程序性任务学习: 对步骤顺序和专家意图至关重要的长序列动作进行建模。
- 触觉-视觉推理: 通过视觉观察和专家旁白学习估计力和材料阻力。
完整数据集规格
此Hugging Face存储库包含一个5分钟预览样本。完整的专业语料库包括:
- 总时长: 超过50小时的连续专家操作。
- 任务: 全周期香肠生产、精确肉类切割和工具维护。
- 数据质量: 4K分辨率、工作室级音频和时间动作标注。
数据集统计信息
总体统计
- 数据集名称: MEAT-CUT-sample
- 批次ID: 02
- 总片段数: 214
- 序列数量: 2
- 流数量: 2
- 流类型: 自我视角、第三人称视角
时长统计
- 总时长: 6.42分钟 (385.20秒)
- 平均片段时长: 1.80秒
- 最短片段时长: 1.80秒
- 最长片段时长: 1.80秒
片段配置
- 基础片段时长: 1.00秒
- 带填充的片段时长: 1.80秒
- 填充: 400毫秒
按流类型统计
自我视角
- 片段数量: 107
- 总时长: 3.21分钟 (192.60秒)
- 平均片段时长: 1.80秒
- 最短片段时长: 1.80秒
- 最长片段时长: 1.80秒
第三人称视角
- 片段数量: 107
- 总时长: 3.21分钟 (192.60秒)
- 平均片段时长: 1.80秒
- 最短片段时长: 1.80秒
- 最长片段时长: 1.80秒
数据集结构
目录结构
dataset/ ├── data-*.arrow # 数据集文件 (Arrow格式) ├── dataset_info.json # 数据集元数据 ├── dataset_metadata.json # 完整数据集统计信息 ├── state.json # 数据集状态 ├── README.md # 此文件 ├── medias/ # 媒体文件 (马赛克、预览等) │ └── mosaic.mp4 # 马赛克预览视频 └── videos/ # 所有视频片段 └── ego/ # 自我视角视频片段 └── third/ # 第三人称视角视频片段
数据集格式
该数据集包含214个同步场景,位于单个train分割中。每个示例包括:
- 同步视频列: 每种流类型一列 (例如
ego_video,third_video,top_video) - 场景元数据:
scene_id,sync_id,duration_sec,fps - 丰富的元数据字典: 任务、环境、音频信息和同步细节
单个示例中的所有视频都是同步的,并对应于同一时刻。
数据集特征
每个示例包含:
scene_id: 唯一场景标识符 (例如 "01_0000")sync_id: 链接同步片段的同步IDduration_sec: 同步片段的持续时间(秒)fps: 每秒帧数 (默认: 30.0)batch_id: 批次标识符dataset_name: 配置中的数据集名称ego_video: 自我中心视角的视频对象 (Hugging FaceVideo类型,decode=False,存储路径)third_video: 第三人称视角的视频对象 (Hugging FaceVideo类型,decode=False,存储路径)metadata: 包含以下内容的字典:task: 任务标识符environment: 环境描述has_audio: 视频是否包含音频num_fluxes: 同步流类型的数量flux_names: 存在的流名称列表sequence_ids: 原始序列ID列表sync_offsets_ms: 同步偏移量列表
使用说明
加载数据集
python from datasets import load_dataset dataset = load_dataset(orgn3ai/MEAT-CUT-sample) train_data = dataset[train]
访问同步视频
每个示例包含所有同步视频流。视频路径作为相对路径存储,需要从数据集缓存目录解析为完整路径。
过滤与处理
数据集支持基于sync_id或元数据字段(如has_audio)进行过滤。
重要注意事项
- 数据集使用统一结构,每个示例在单独的列中包含所有同步视频流。
- 所有示例都位于
train分割中。 - 同一示例中的视频(
train分割中相同索引)会自动同步。它们共享相同的sync_id并对应于同一时刻。 - 视频路径使用Hugging Face的
Video类型存储,decode=False。要访问实际文件路径,需从Video对象中提取path属性。
商业许可与联系
完整数据集可用于商业许可和大规模工业或学术研究。它提供了对公共视频库中无法获得的“隐性知识”的深入洞察。 如需讨论完整访问或自定义数据收集,请联系: lain@gmail.com




