cosmos-reason1-benchmark-mirror

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/thomas-yanxin/cosmos-reason1-benchmark-mirror

下载链接

链接失效反馈

官方服务：

资源简介：

Cosmos-Reason1 Benchmark Mirror 是一个遵循 EmbodiedArena 布局的 Cosmos 基准测试本地镜像数据集。该数据集包含多个子任务的标注文件和基准测试视频，以及一个用于本地评估的合并单文件导出和验证摘要。具体内容包括：每个子任务的 `<subtask>/<subtask>_benchmark_qa_pairs.json` 标注文件、`<subtask>/clips/*.mp4` 基准测试视频、`benchmark.jsonl` 合并单文件导出和 `meta.json` 验证摘要。子任务包括 `bridgev2`、`robovqa`、`agibot`、`holoassist` 和 `robofail`，分别包含 100、110、100、100 和 100 行数据，以及 100、101、100、100 和 100 个唯一视频。总行数为 510，总唯一视频数为 501。数据集还提供了本地 `em-eval` 使用的配置示例。

创建时间：

2026-04-07

原始信息汇总

Cosmos-Reason1 Benchmark Mirror 数据集概述

数据集来源与目的

本数据集是 Cosmos 基准测试的本地镜像副本，遵循 EmbodiedArena 布局进行准备。

数据集内容与结构

数据集包含标注文件、基准测试视频以及用于本地评估的整合文件。
主要文件包括：
- 各子任务目录下的 <subtask>/<subtask>_benchmark_qa_pairs.json 标注文件。
- 各子任务目录下的 <subtask>/clips/*.mp4 基准测试视频文件。
- benchmark.jsonl 文件：为本地 em-eval 运行整合的单文件导出。
- meta.json 文件：验证摘要。

子任务统计摘要

bridgev2：100 行数据，100 个独立视频，0 个重复视频引用。
robovqa：110 行数据，101 个独立视频，9 个重复视频引用。
agibot：100 行数据，100 个独立视频，0 个重复视频引用。
holoassist：100 行数据，100 个独立视频，0 个重复视频引用。
robofail：100 行数据，100 个独立视频，0 个重复视频引用。

整体数据统计

总数据行数：510
总独立视频数：501

本地评估使用说明

用于本地 em-eval 运行的配置示例： json { "task_configs": { "cosmos": { "data_path": "/path/to/benchmark.jsonl", "video_root": "/path/to/mirror/root" } } }

搜集汇总

数据集介绍

构建方式

在具身智能领域，高质量的基准测试数据集对于评估模型在复杂物理环境中的推理能力至关重要。Cosmos-Reason1 Benchmark Mirror数据集通过系统化的方式构建，其核心来源于原始数据包`cosmos-20260413T110714Z-3-001.zip`的本地镜像。该数据集按照EmbodiedArena的布局进行组织，涵盖了五个关键子任务：bridgev2、robovqa、agibot、holoassist和robofail。每个子任务均包含结构化的标注文件与对应的视频片段，并通过`benchmark.jsonl`文件实现了所有数据的整合导出，确保了评估流程的统一性与便捷性。整个构建过程注重数据的完整性与可复现性，为后续的模型评测奠定了坚实基础。

特点

该数据集在具身推理基准测试中展现出鲜明的技术特征。其首要特点是多任务覆盖，集成了跨越机器人操作、视觉问答、人机交互与故障诊断等多个维度的510条数据样本，全面模拟了现实世界的复杂场景。数据规模方面，共包含501段独特的视频素材，有效避免了内容的高度重复，保证了评估的多样性与挑战性。在组织结构上，数据集采用了清晰的分层目录与统一的元数据文件，既支持按子任务进行细粒度分析，也支持通过整合的JSONL文件进行一站式批量评估。这种设计兼顾了研究的深度与工程实践的效率。

使用方法

为了高效利用该数据集进行模型评估，研究者需遵循其预设的本地评测框架。核心步骤是将数据集镜像的根目录路径与整合后的`benchmark.jsonl`文件路径正确配置于任务配置文件之中。具体而言，在`task_configs`下的`cosmos`配置项内，分别指定`data_path`指向JSONL文件，`video_root`指向视频素材的存储根目录。完成配置后，即可调用配套的`em-eval`工具启动自动化评测流程。该方法将自动关联问题、答案与对应的视频证据，生成标准化的性能指标报告，极大简化了跨任务比较与模型能力诊断的复杂度。

背景与挑战

背景概述

Cosmos-Reason1 Benchmark Mirror作为具身人工智能领域的重要数据集，由EmbodiedArena团队于近期构建，旨在评估智能体在复杂多模态环境中的推理与决策能力。该数据集整合了bridgev2、robovqa、agibot、holoassist和robofail五个子任务，涵盖510条数据样本与501段独特视频，聚焦于解决具身智能在动态场景下的高级认知挑战，如视觉理解、因果推理与任务规划。其设计不仅推动了具身交互研究从静态感知向动态决策的演进，还为多模态大模型与机器人系统的性能评估提供了标准化基准，显著促进了跨领域协同创新。

当前挑战

该数据集核心挑战在于解决具身智能在开放世界环境中的高阶推理问题，例如如何从连续视频流中提取时空因果关系，或如何在多任务交互中实现稳健的意图推断。构建过程中，研究人员需克服多源视频数据的对齐与标注难题，确保子任务间逻辑一致性，同时避免视频重复引用带来的评估偏差。此外，平衡不同场景的复杂性与多样性，以及设计可扩展的评估框架以适应快速演进的具身算法，亦是数据集构建与迭代中的关键难点。

常用场景

经典使用场景

在具身智能与多模态推理领域，Cosmos-Reason1 Benchmark Mirror为评估模型在复杂物理环境中的理解能力提供了标准测试平台。该数据集通过整合多个子任务，如桥接推理、机器人视觉问答和辅助交互，要求模型基于视频片段进行时序逻辑分析和因果推断，从而模拟真实世界中的动态决策过程。其经典使用场景集中于推动具身智能系统在开放环境下的认知建模，促进模型从被动感知向主动推理的演进。

实际应用

在实际应用层面，Cosmos-Reason1 Benchmark Mirror的评估框架可直接服务于机器人自主导航、智能家居交互以及工业检测系统。例如，在机器人故障诊断任务中，模型通过分析操作视频识别异常行为；在辅助交互场景中，则能理解人类指令并生成连贯响应。这些应用显著提升了智能体在动态环境中的适应性与可靠性，为安全关键领域的自动化部署奠定基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态预训练与推理架构的创新上。例如，基于其子任务设计的层次化注意力网络增强了视频时序建模能力；结合强化学习的交互式推理框架则优化了具身决策流程。这些研究不仅扩展了数据集的学术影响力，还催生了如EmbodiedArena等评估工具链的完善，形成了从基准测试到方法迭代的良性循环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集