gaia2-cli
收藏GAIA2 CLI 数据集概述
数据集基本信息
- 数据集名称:GAIA2 CLI
- 数据集地址:https://huggingface.co/datasets/meta-agents-research-environments/gaia2-cli
- 用途:用于 gaia2-cli 的基准测试数据集,这是一个基于命令行界面(CLI)的智能体评估工具。
数据模式
每条数据包含两列:
| 列名 | 类型 | 描述 |
|---|---|---|
scenario_id |
字符串 | 唯一场景标识符(例如 scenario_universe_21_1qgjj6) |
scenario |
字符串 | 完整的场景信息,以 JSON 字符串格式存储 |
配置与数据划分
数据集包含多个配置,每个配置对应一个数据子集,所有配置的划分均为 test。
- 默认配置 (
default):包含所有数据文件 (data/*) - 特定配置:
adaptability:对应数据文件data/adaptability-*ambiguity:对应数据文件data/ambiguity-*execution:对应数据文件data/execution-*search:对应数据文件data/search-*time:对应数据文件data/time-*
可用配置:adaptability, ambiguity, execution, search, time。
数据规模
- 单个配置场景数:160 个场景
- 全部配置总场景数:800 个场景
数据结构
scenario 字段解析后的 JSON 对象包含以下键:metadata, apps, events, version, augmentation。
使用方式
通过 datasets 库加载
python from datasets import load_dataset import json
加载特定配置(160个场景)
ds = load_dataset("meta-agents-research-environments/gaia2-cli", "adaptability", split="test")
加载所有配置(800个场景)
ds = load_dataset("meta-agents-research-environments/gaia2-cli", split="test")
通过 gaia2-runner 运行
gaia2-runner 会自动下载并缓存此数据集。
bash
gaia2-runner run-dataset
--dataset meta-agents-research-environments/gaia2-cli
--splits adaptability
--image localhost/gaia2-oc:latest
--provider anthropic --model claude-opus-4-6
--judge-provider anthropic --judge-model claude-opus-4-6
或在 TOML 配置文件中指定: toml [target] dataset = "meta-agents-research-environments/gaia2-cli" splits = "all"
导出为 JSON 文件
可将场景导出为独立的 JSON 文件。 bash python scripts/export_hf_to_json.py --splits all --dest ~/gaia2_datasets/gaia2-cli




