Great March 100 (GM-100)

Name: Great March 100 (GM-100)
Creator: 上海交通大学; SII; Robbyant
Published: 2026-01-17 00:42:05
License: 暂无描述

arXiv2026-01-17 更新2026-01-20 收录

下载链接：

https://rhos.ai/research/gm-100

下载链接

链接失效反馈

官方服务：

资源简介：

GM-100是由上海交通大学等机构联合推出的机器人学习基准数据集，包含100个精心设计的细节导向型任务，覆盖广泛的人机交互与长尾行为。该数据集包含超过1.3万条通过遥操作收集的轨迹数据，源自Agilex Cobot Magic和Dobot Xtrainer双机器人平台。其构建融合了人类动作原语分析与大语言模型生成技术，通过专家筛选确保任务可行性和数据采集友好性。该数据集旨在解决现有机器人任务设计中多样性不足、评估偏颇的问题，为VLA模型提供全面的能力测试平台，推动复杂场景下 embodied AI 的发展。

GM-100 is a robotic learning benchmark dataset jointly released by Shanghai Jiao Tong University and other institutions. It includes 100 meticulously designed detail-oriented tasks covering a wide range of human-robot interactions and long-tail behaviors. This dataset contains over 13,000 trajectory data points collected via teleoperation, sourced from two robotic platforms: Agilex Cobot Magic and Dobot Xtrainer. Its construction integrates human action primitive analysis and large language model (LLM) generation technologies, with expert screening conducted to ensure task feasibility and data collection friendliness. This dataset aims to address the issues of insufficient diversity and biased evaluation in existing robotic task design, providing a comprehensive capability test platform for Vision-Language-Action (VLA) models and promoting the development of embodied AI in complex scenarios.

提供机构：

上海交通大学; SII; Robbyant

创建时间：

2026-01-17

搜集汇总

数据集介绍

构建方式

在机器人学习领域，现有数据集常聚焦于常见任务，缺乏对长尾行为的系统覆盖。GM-100数据集的构建旨在突破这一局限，其任务设计基于对现有机器人任务（如Agibot和Open X-Embodiment）的系统性分析与去重分类，并融合了人-物交互基元（如HAKE）和物体可供性（如OCL）的洞见。通过大型语言模型（Qwen3）生成候选任务，结合语义消歧和动作-对象关联建模，自动合成具体任务实例。随后，任务经过LLM自动评分与五位人类专家的联合筛选，确保其在当前硬件条件下可行且易于遥操作数据收集，最终精选出100项高质量任务，形成基准测试集。

特点

GM-100数据集的核心特点在于其任务设计的多样性与挑战性。该数据集涵盖了广泛的交互行为，特别注重长尾分布中罕见但重要的任务，避免了传统数据集中常见的“拾取与持有”等高频动作的重复。任务设计基于物理常识和低层操作知识，而非现实应用效用，从而减少了人为偏见。数据集包含超过13,000条轨迹数据，采集自两种不同运动结构和摄像头视角的机器人平台（Agilex Cobot Magic和Dobot Xtrainer），提供了丰富的环境多样性。实验表明，这些任务既具备执行可行性，又能有效区分当前视觉-语言-动作模型的性能，为全面评估具身智能体能力提供了坚实基础。

使用方法

GM-100数据集主要用于评估具身智能体在真实世界中的综合能力。研究人员可利用其提供的任务列表、轨迹数据和模板视频，对模型进行训练与测试。评估时，可采用成功率和部分成功率等指标，其中部分成功率针对多步骤复杂任务，能提供更细粒度的性能分析。数据集支持在两种机器人平台上进行部署，用户可根据平台特性调整输入主题和动作空间。此外，GM-100倡导社区驱动的开放评估范式，鼓励研究者上传模型权重与证据视频，通过集体监督促进透明可信的基准测试。该数据集为机器人学习奥运会奠定了初步基础，推动任务设计向多样化和复杂化发展。

背景与挑战

背景概述

在具身人工智能与机器人学习领域，大规模、多样化的任务数据集是推动智能体能力发展的关键基础设施。然而，现有数据集普遍存在任务设计同质化、集中于常见行为而忽略长尾复杂交互的问题，这限制了模型在真实场景中的泛化能力与公平评估。为应对这一挑战，上海交通大学、SII及Robbyant等机构的研究团队于2026年联合推出了Great March 100（GM-100）数据集。该数据集作为迈向“机器人学习奥林匹克”的第一步，系统性地设计了100个细节导向的任务，其核心研究问题在于如何构建一个覆盖广泛交互、包含长尾行为的任务集合，以全面、公正地评估具身智能体的综合能力，并促进机器人任务设计的多样性与复杂性。GM-100的提出，标志着该领域从单纯追求数据规模向注重任务结构与评估科学性的重要转变。

当前挑战

GM-100数据集旨在解决的领域核心挑战，是克服现有机器人任务评估中存在的严重偏差与局限性。具体而言，当前多数数据集和评估方法聚焦于少数高频任务（如“抓取-放置”），导致训练出的模型在复杂、罕见的长尾任务上表现不佳，难以准确反映不同方法在多样化场景下的真实性能差异。在构建过程中，研究团队面临多重挑战：首先，需要从大量现有任务中系统分析并剔除重复设计，同时依据人-物交互基元与物体可供性理论，生成并筛选出既符合物理常识又具备执行可行性的新任务；其次，确保生成的任务在现有硬件平台上可执行且便于遥操作数据采集，这要求对任务进行严格的自动化与人工双重过滤；最后，建立超越简单成功率的细粒度评估指标（如部分成功率），以对模型性能进行更精准的衡量，这本身也是一项重要的方法论挑战。

常用场景

经典使用场景

在具身智能与机器人学习领域，评估模型的泛化能力与鲁棒性始终是核心挑战。Great March 100 (GM-100) 作为首个系统性设计的机器人任务奥林匹克基准，其最经典的使用场景在于为各类视觉-语言-动作模型提供统一、全面且具有挑战性的性能评估平台。该数据集通过精心设计的100个细节导向任务，覆盖了从高频到低频的广泛人-物交互行为，尤其强调对长尾、复杂任务的考察。研究者可在此基准上训练和测试不同策略，通过其定义的成功率、部分成功率及动作预测误差等多维度指标，客观比较模型在多样化真实物理交互中的表现差异，从而推动算法向更通用、更稳健的方向发展。

解决学术问题

GM-100 的提出直接回应了机器人学习领域长期存在的两个关键学术问题：一是现有数据集任务设计同质化严重，过度集中于‘拾取-放置’等常见行为，导致训练模型存在显著偏差，难以应对真实世界中的复杂长尾场景；二是评估体系缺乏统一标准，不同研究在各自有限的常见任务上测试，使得方法间的公平比较与性能的真实反映变得困难。该数据集通过基于人-物交互基元与物体可供性的系统性任务生成与筛选，构建了一个兼具多样性、复杂性与物理可行性的任务集合，为衡量模型在广泛交互谱系上的真实能力提供了可靠标尺，从而促进了任务设计从规模导向向结构性与原则性导向的范式转变。

衍生相关工作

GM-100 作为基础性任务列表与评估框架，已激发并支撑了一系列后续研究。其开源的数据集与明确的评估协议，为社区提供了可复现的对比基线，直接促进了如 π0.5、GR00T 等先进视觉-语言-动作模型在该基准上的性能迭代与优化。更重要的是，它确立的以人-物交互基元为核心、覆盖长尾行为的设计哲学，为后续数据集与基准的构建提供了方法论借鉴，推动了机器人学习社区从追求数据规模转向关注任务结构与评估信度的新趋势。该工作所倡导的社区驱动、开放透明的评估范式，也为未来构建更大规模的GM-X系列基准与合作生态系统奠定了基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集