Magma-OXE-ToM
收藏Hugging Face2025-04-06 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/MagmaAI/Magma-OXE-ToM
下载链接
链接失效反馈官方服务:
资源简介:
Magma是一个用于多模态AI代理的基础模型,该数据集包含了用于Magma预训练的机器人操作数据。数据集遵循OpenVLA的使用数据混合方式,采用了“siglip-224px+mx-oxe-magic-soup”这一混合。数据集由多个源数据集组成,每个源数据集包含一个或多个arrow文件。数据集字段包括原始数据集名称、机器人场景图像、任务描述、帧索引、轨迹索引、机器人动作向量、机器人轨迹轨迹和轨迹可见性掩码。
创建时间:
2025-04-06
搜集汇总
数据集介绍

构建方式
在机器人技术领域,多模态数据的整合对智能体训练至关重要。Magma-OXE-ToM数据集通过整合来自23个不同来源的机器人操作数据构建而成,采用OpenVLA框架推荐的'siglip-224px+mx-oxe-magic-soup'数据混合策略。数据以分片箭式文件形式组织,每个来源数据集包含1至21个不等的分片,涵盖从简单抓取到复杂装配等多种操作场景。数据预处理阶段特别提取了每帧图像后16帧的视觉轨迹信息,为时序动作预测提供丰富上下文。
特点
该数据集在标准机器人操作数据基础上进行了深度增强,其核心价值在于前瞻性视觉轨迹的标注。每个数据样本包含场景图像、任务描述文本、帧索引等基础字段,创新性地加入了机器人动作向量和17帧长度的轨迹追踪数据。轨迹可见性掩码的设计解决了部分遮挡场景下的数据标注难题。二进制序列化存储方式兼顾了数据完整性和读取效率,256x256分辨率的图像与多维动作向量的组合为多模态学习提供了理想素材。
使用方法
通过HuggingFace数据集库可便捷加载该数据集,支持全量加载或按子数据集灵活调用。数据流式读取模式有效降低内存消耗,特别适合大规模机器人学习任务。配套提供的反序列化工具函数可快速将二进制字段转换为NumPy数组和PIL图像对象,其中动作向量为7维空间坐标,轨迹数据采用256x2的矩阵表征。研究人员可通过遍历数据迭代器获取样本,结合任务描述文本与多帧视觉轨迹,构建端到端的机器人操作预测模型。
背景与挑战
背景概述
Magma-OXE-ToM数据集由微软研究院联合多所知名高校共同构建,旨在为多模态AI智能体提供机器人操作任务的预训练数据。该数据集整合了来自23个不同来源的机器人操作数据,涵盖了从简单物体抓取到复杂家具组装等多样化任务场景。研究团队通过提取每帧图像未来16帧的视觉轨迹,构建了包含场景图像、任务描述、动作向量和轨迹追踪等关键特征的多模态表示。作为Magma基础模型的核心训练数据,该数据集显著提升了智能体在物理交互任务中的视觉-动作协同能力,为机器人操作领域的迁移学习研究树立了新的基准。
当前挑战
该数据集面临的核心挑战在于异构数据源的标准化整合,原始数据来自不同机构且采集协议各异,需统一动作表示和坐标系转换。视觉-动作对齐的精度要求构成另一重挑战,尤其在长序列轨迹预测中,微小的动作误差会导致累积偏差。多模态表征学习方面,如何有效融合高维视觉输入与低维动作向量仍需深入探索。数据构建过程中,处理原始数据中约17%的噪声轨迹和缺失帧消耗了大量计算资源,而保持不同任务间数据平衡也面临采样策略的优化难题。
常用场景
经典使用场景
在机器人学领域,Magma-OXE-ToM数据集为多模态AI代理的预训练提供了丰富的机器人操作数据。该数据集整合了来自多个实验室和机构的机器人操作轨迹,涵盖了从简单的物体抓取到复杂的家具组装等多种任务场景。研究人员可以利用这些数据训练模型理解机器人操作中的视觉-动作关联,为后续的机器人控制算法开发奠定基础。
解决学术问题
该数据集有效解决了机器人操作学习中数据稀缺和多样性不足的问题。通过整合21个不同来源的机器人操作数据,它为研究社区提供了一个标准化的基准测试平台。特别在跨任务迁移学习和少样本学习方面,数据集中的多样化任务描述和动作轨迹为解决机器人泛化能力这一核心学术难题提供了重要支持。
衍生相关工作
该数据集已催生多个重要的后续研究,包括OpenVLA等开源视觉语言动作模型。研究者们利用其丰富的多模态特征,开发了能够同时处理视觉输入和自然语言指令的机器人控制系统。这些工作显著推进了具身智能领域的发展,为构建更智能的工业和服务机器人提供了技术基础。
以上内容由遇见数据集搜集并总结生成



