five

gaia2-cli

收藏
Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/meta-agents-research-environments/gaia2-cli
下载链接
链接失效反馈
官方服务:
资源简介:
GAIA2 CLI 是一个用于命令行界面(CLI)智能体评估的基准数据集。该数据集包含800个测试场景,分为5个不同配置类别(适应性、模糊性、执行、搜索、时间),每个配置包含160个场景。每个数据样本包含两个字段:scenario_id(唯一场景标识符)和scenario(完整的JSON格式场景描述)。数据集适用于评估智能体在复杂CLI环境中的表现,特别是测试智能体在不同挑战类型下的适应能力。使用示例展示了如何通过HuggingFace datasets库加载特定配置或全部数据,以及如何与gaia2-runner工具集成进行自动化评估。
创建时间:
2026-04-10
原始信息汇总

GAIA2 CLI 数据集概述

数据集基本信息

  • 数据集名称:GAIA2 CLI
  • 数据集地址:https://huggingface.co/datasets/meta-agents-research-environments/gaia2-cli
  • 用途:用于 gaia2-cli 的基准测试数据集,这是一个基于命令行界面(CLI)的智能体评估工具。

数据模式

每条数据包含两列:

列名 类型 描述
scenario_id 字符串 唯一场景标识符(例如 scenario_universe_21_1qgjj6
scenario 字符串 完整的场景信息,以 JSON 字符串格式存储

配置与数据划分

数据集包含多个配置,每个配置对应一个数据子集,所有配置的划分均为 test

  • 默认配置 (default):包含所有数据文件 (data/*)
  • 特定配置
    • adaptability:对应数据文件 data/adaptability-*
    • ambiguity:对应数据文件 data/ambiguity-*
    • execution:对应数据文件 data/execution-*
    • search:对应数据文件 data/search-*
    • time:对应数据文件 data/time-*

可用配置adaptability, ambiguity, execution, search, time

数据规模

  • 单个配置场景数:160 个场景
  • 全部配置总场景数:800 个场景

数据结构

scenario 字段解析后的 JSON 对象包含以下键:metadata, apps, events, version, augmentation

使用方式

通过 datasets 库加载

python from datasets import load_dataset import json

加载特定配置(160个场景)

ds = load_dataset("meta-agents-research-environments/gaia2-cli", "adaptability", split="test")

加载所有配置(800个场景)

ds = load_dataset("meta-agents-research-environments/gaia2-cli", split="test")

通过 gaia2-runner 运行

gaia2-runner 会自动下载并缓存此数据集。 bash gaia2-runner run-dataset --dataset meta-agents-research-environments/gaia2-cli --splits adaptability --image localhost/gaia2-oc:latest --provider anthropic --model claude-opus-4-6 --judge-provider anthropic --judge-model claude-opus-4-6

或在 TOML 配置文件中指定: toml [target] dataset = "meta-agents-research-environments/gaia2-cli" splits = "all"

导出为 JSON 文件

可将场景导出为独立的 JSON 文件。 bash python scripts/export_hf_to_json.py --splits all --dest ~/gaia2_datasets/gaia2-cli

搜集汇总
数据集介绍
main_image_url
构建方式
在智能体研究领域,GAIA2 CLI数据集为命令行界面智能体评估提供了结构化基准。该数据集通过精心设计的场景构建而成,每个场景均以JSON格式封装,包含独特的标识符与完整的交互情境描述。构建过程聚焦于模拟真实世界中的复杂任务,涵盖了适应性、模糊性、执行、搜索及时间管理等多个关键维度,确保了评估任务的多样性与挑战性。数据集的生成依托于系统化的场景设计流程,旨在精确反映智能体在动态环境中的决策与执行能力。
特点
GAIA2 CLI数据集展现出鲜明的技术特性,其核心在于多维度的场景配置设计。数据集划分为适应性、模糊性、执行、搜索及时间五个独立子集,每个子集包含160个场景,总计提供800个评估实例。每个场景均以标准化的JSON结构呈现,内含元数据、应用程序、事件序列及版本信息等关键字段,确保了数据的一致性与可解析性。这种模块化设计不仅便于针对特定能力进行定向评估,还支持整体性能的综合分析,为智能体研究提供了灵活且全面的测试基础。
使用方法
利用GAIA2 CLI数据集进行智能体评估,可通过多种技术路径实现。研究人员可直接使用Hugging Face的datasets库加载特定配置或完整数据集,并通过解析JSON场景内容获取评估任务。数据集与专用的gaia2-runner工具链深度集成,支持通过命令行或配置文件自动化执行评估流程,包括智能体调用与结果评判。此外,数据集支持导出为独立JSON文件,便于离线分析与自定义实验设置,为智能体在复杂环境中的能力测评提供了高效、可复现的研究平台。
背景与挑战
背景概述
GAIA2 CLI数据集是Meta AI研究团队于2024年推出的一个专门用于评估命令行界面(CLI)智能体性能的基准测试集。该数据集旨在解决通用人工智能代理在复杂、动态的真实世界环境中执行多步骤任务的能力评估问题,其核心研究焦点在于衡量智能体对系统指令的理解、工具调用、信息检索以及跨场景适应性的综合表现。作为GAIA(General AI Assistants)基准的延伸,该数据集通过模拟多样化的命令行交互场景,为研究社区提供了量化评估自主智能体在受限但实用的CLI环境中解决问题能力的标准化工具,对推动具身智能与操作系统的交互研究具有重要影响力。
当前挑战
GAIA2 CLI数据集所针对的核心领域挑战在于如何准确评估智能体在开放域、多模态命令行任务中的泛化与执行能力,这要求智能体不仅需理解自然语言指令,还需掌握复杂的工具链使用、状态追踪及动态环境适应。在数据集构建过程中,研究人员面临的主要挑战包括:设计具有足够多样性和真实性的CLI交互场景以覆盖广泛的现实应用;确保任务指令的模糊性与时间敏感性能够有效检验智能体的鲁棒性;以及建立公平、可复现的自动化评估框架,以精确度量智能体在搜索、执行、适应性等不同维度上的性能表现。
常用场景
经典使用场景
在智能体研究领域,GAIA2 CLI数据集作为命令行界面智能体评估的基准工具,其经典使用场景聚焦于对智能体在复杂、动态环境中的综合能力进行系统性评测。该数据集通过模拟真实世界中的命令行交互任务,涵盖了适应性、模糊性处理、执行效率、搜索能力及时间管理等多元维度,为研究者提供了一个标准化、可复现的测试平台,用以衡量智能体在应对不确定性、执行多步骤操作以及处理时序依赖任务时的表现。
解决学术问题
该数据集有效解决了智能体研究中的若干核心学术问题,特别是在评估通用人工智能(AGI)系统在开放域、非结构化环境下的实际性能方面。它通过精心设计的场景,挑战了智能体在信息不完整、指令存在歧义或环境动态变化时的推理与决策能力,为量化智能体的鲁棒性、泛化能力以及任务完成效率提供了实证基础。其意义在于推动了智能体评估从封闭、静态任务向开放、动态场景的范式转变,促进了更贴近现实应用的智能体系统开发。
衍生相关工作
围绕GAIA2 CLI数据集,已衍生出一系列重要的相关研究工作。这些工作主要集中在构建更强大的评估框架(如gaia2-runner)、开发新型的智能体架构以应对数据集提出的挑战,以及利用该基准进行大规模的智能体能力对比分析。相关研究不仅推动了评估方法学的进步,例如引入更可靠的自动评判机制,也激励了社区探索结合规划、工具使用、环境交互与长期记忆等能力的下一代智能体模型,为构建更通用、更可靠的自主智能系统奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作