gaia2-cli

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/meta-agents-research-environments/gaia2-cli

下载链接

链接失效反馈

官方服务：

资源简介：

GAIA2 CLI 是一个用于命令行界面(CLI)智能体评估的基准数据集。该数据集包含800个测试场景，分为5个不同配置类别（适应性、模糊性、执行、搜索、时间），每个配置包含160个场景。每个数据样本包含两个字段：scenario_id（唯一场景标识符）和scenario（完整的JSON格式场景描述）。数据集适用于评估智能体在复杂CLI环境中的表现，特别是测试智能体在不同挑战类型下的适应能力。使用示例展示了如何通过HuggingFace datasets库加载特定配置或全部数据，以及如何与gaia2-runner工具集成进行自动化评估。

创建时间：

2026-04-10

原始信息汇总

GAIA2 CLI 数据集概述

数据集基本信息

数据集名称：GAIA2 CLI
数据集地址：https://huggingface.co/datasets/meta-agents-research-environments/gaia2-cli
用途：用于 gaia2-cli 的基准测试数据集，这是一个基于命令行界面（CLI）的智能体评估工具。

数据模式

每条数据包含两列：

列名	类型	描述
`scenario_id`	字符串	唯一场景标识符（例如 `scenario_universe_21_1qgjj6`）
`scenario`	字符串	完整的场景信息，以 JSON 字符串格式存储

配置与数据划分

数据集包含多个配置，每个配置对应一个数据子集，所有配置的划分均为 test。

默认配置 (default)：包含所有数据文件 (data/*)
特定配置：
- adaptability：对应数据文件 data/adaptability-*
- ambiguity：对应数据文件 data/ambiguity-*
- execution：对应数据文件 data/execution-*
- search：对应数据文件 data/search-*
- time：对应数据文件 data/time-*

可用配置：adaptability, ambiguity, execution, search, time。

数据规模

单个配置场景数：160 个场景
全部配置总场景数：800 个场景

数据结构

scenario 字段解析后的 JSON 对象包含以下键：metadata, apps, events, version, augmentation。

使用方式

通过 `datasets` 库加载

python from datasets import load_dataset import json

加载特定配置（160个场景）

ds = load_dataset("meta-agents-research-environments/gaia2-cli", "adaptability", split="test")

加载所有配置（800个场景）

ds = load_dataset("meta-agents-research-environments/gaia2-cli", split="test")

通过 `gaia2-runner` 运行

gaia2-runner 会自动下载并缓存此数据集。 bash gaia2-runner run-dataset --dataset meta-agents-research-environments/gaia2-cli --splits adaptability --image localhost/gaia2-oc:latest --provider anthropic --model claude-opus-4-6 --judge-provider anthropic --judge-model claude-opus-4-6

或在 TOML 配置文件中指定： toml [target] dataset = "meta-agents-research-environments/gaia2-cli" splits = "all"

导出为 JSON 文件

可将场景导出为独立的 JSON 文件。 bash python scripts/export_hf_to_json.py --splits all --dest ~/gaia2_datasets/gaia2-cli

搜集汇总

数据集介绍

构建方式

在智能体研究领域，GAIA2 CLI数据集为命令行界面智能体评估提供了结构化基准。该数据集通过精心设计的场景构建而成，每个场景均以JSON格式封装，包含独特的标识符与完整的交互情境描述。构建过程聚焦于模拟真实世界中的复杂任务，涵盖了适应性、模糊性、执行、搜索及时间管理等多个关键维度，确保了评估任务的多样性与挑战性。数据集的生成依托于系统化的场景设计流程，旨在精确反映智能体在动态环境中的决策与执行能力。

特点

GAIA2 CLI数据集展现出鲜明的技术特性，其核心在于多维度的场景配置设计。数据集划分为适应性、模糊性、执行、搜索及时间五个独立子集，每个子集包含160个场景，总计提供800个评估实例。每个场景均以标准化的JSON结构呈现，内含元数据、应用程序、事件序列及版本信息等关键字段，确保了数据的一致性与可解析性。这种模块化设计不仅便于针对特定能力进行定向评估，还支持整体性能的综合分析，为智能体研究提供了灵活且全面的测试基础。

使用方法

利用GAIA2 CLI数据集进行智能体评估，可通过多种技术路径实现。研究人员可直接使用Hugging Face的datasets库加载特定配置或完整数据集，并通过解析JSON场景内容获取评估任务。数据集与专用的gaia2-runner工具链深度集成，支持通过命令行或配置文件自动化执行评估流程，包括智能体调用与结果评判。此外，数据集支持导出为独立JSON文件，便于离线分析与自定义实验设置，为智能体在复杂环境中的能力测评提供了高效、可复现的研究平台。

背景与挑战

背景概述

GAIA2 CLI数据集是Meta AI研究团队于2024年推出的一个专门用于评估命令行界面（CLI）智能体性能的基准测试集。该数据集旨在解决通用人工智能代理在复杂、动态的真实世界环境中执行多步骤任务的能力评估问题，其核心研究焦点在于衡量智能体对系统指令的理解、工具调用、信息检索以及跨场景适应性的综合表现。作为GAIA（General AI Assistants）基准的延伸，该数据集通过模拟多样化的命令行交互场景，为研究社区提供了量化评估自主智能体在受限但实用的CLI环境中解决问题能力的标准化工具，对推动具身智能与操作系统的交互研究具有重要影响力。

当前挑战

GAIA2 CLI数据集所针对的核心领域挑战在于如何准确评估智能体在开放域、多模态命令行任务中的泛化与执行能力，这要求智能体不仅需理解自然语言指令，还需掌握复杂的工具链使用、状态追踪及动态环境适应。在数据集构建过程中，研究人员面临的主要挑战包括：设计具有足够多样性和真实性的CLI交互场景以覆盖广泛的现实应用；确保任务指令的模糊性与时间敏感性能够有效检验智能体的鲁棒性；以及建立公平、可复现的自动化评估框架，以精确度量智能体在搜索、执行、适应性等不同维度上的性能表现。

常用场景

经典使用场景

在智能体研究领域，GAIA2 CLI数据集作为命令行界面智能体评估的基准工具，其经典使用场景聚焦于对智能体在复杂、动态环境中的综合能力进行系统性评测。该数据集通过模拟真实世界中的命令行交互任务，涵盖了适应性、模糊性处理、执行效率、搜索能力及时间管理等多元维度，为研究者提供了一个标准化、可复现的测试平台，用以衡量智能体在应对不确定性、执行多步骤操作以及处理时序依赖任务时的表现。

解决学术问题

该数据集有效解决了智能体研究中的若干核心学术问题，特别是在评估通用人工智能（AGI）系统在开放域、非结构化环境下的实际性能方面。它通过精心设计的场景，挑战了智能体在信息不完整、指令存在歧义或环境动态变化时的推理与决策能力，为量化智能体的鲁棒性、泛化能力以及任务完成效率提供了实证基础。其意义在于推动了智能体评估从封闭、静态任务向开放、动态场景的范式转变，促进了更贴近现实应用的智能体系统开发。

衍生相关工作

围绕GAIA2 CLI数据集，已衍生出一系列重要的相关研究工作。这些工作主要集中在构建更强大的评估框架（如gaia2-runner）、开发新型的智能体架构以应对数据集提出的挑战，以及利用该基准进行大规模的智能体能力对比分析。相关研究不仅推动了评估方法学的进步，例如引入更可靠的自动评判机制，也激励了社区探索结合规划、工具使用、环境交互与长期记忆等能力的下一代智能体模型，为构建更通用、更可靠的自主智能系统奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集