Claw-Eval

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/claw-eval/Claw-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

Claw-Eval 是一个端到端的透明基准测试数据集，用于评估在现实世界中行动的 AI 智能体。数据集包含 300 个任务，分为三个主要部分：通用任务（161 个示例）、多模态任务（101 个示例）和多轮对话任务（38 个示例）。每个任务包含唯一的任务标识符（task_id）、任务指令（query）、所需的固定文件列表（fixture）、任务语言（language）和任务领域（category）。通用任务涵盖 24 个类别，如通信、金融、运营和生产力等；多模态任务涉及感知和创造，如网页生成、视频问答和文档提取等；多轮对话任务则模拟用户角色与智能体进行交互以澄清需求和提供建议。数据集支持中英文，采用 MIT 许可证发布。

创建时间：

2026-03-25

原始信息汇总

Claw-Eval 数据集概述

数据集基本信息

数据集名称：Claw-Eval
数据集地址：https://huggingface.co/datasets/claw-eval/Claw-Eval
许可证：MIT
主要语言：英语 (en)、中文 (zh)
数据规模类别：n<1K
标签：agent-bench, evaluation, real-world, multimodal

数据集描述

Claw-Eval 是一个用于评估在现实世界中行动的AI智能体的端到端透明基准测试。

数据集结构与内容

数据划分

划分名称	样本数量	描述
`general`	161	涵盖24个类别（沟通、金融、运营、生产力等）的核心智能体任务
`multimodal`	101	需要感知和创造能力的多模态智能体任务（网页生成、视频问答、文档提取等）
`multi_turn`	38	多轮对话任务，智能体与模拟用户角色交互以澄清需求并提供建议

数据字段

字段名	类型	描述
`task_id`	string	唯一任务标识符
`query`	string	任务指令/描述
`fixture`	list[string]	任务所需的固定文件（位于 `data/fixtures.tar.gz`）
`language`	string	任务语言（`en` 或 `zh`）
`category`	string	任务领域

技术详情

下载大小：155,773 字节
数据集总大小：322,511 字节
总任务数：300

使用方式

可通过 datasets 库加载数据集，支持加载全部划分或指定划分（general, multimodal, multi_turn）。

致谢

测试案例基于社区工作构建，借鉴并改编了来自 OpenClaw、PinchBench、OfficeQA、OneMillion-Bench、Finance Agent 和 Terminal-Bench 2.0 的任务。

引用

若在研究中使用本数据集，请引用提供的 BibTeX 条目。

贡献者

主要贡献者包括来自北京大学和香港大学的研究人员。项目负责人为 Lei Li。

搜集汇总

数据集介绍

构建方式

在人工智能代理评估领域，Claw-Eval数据集的构建体现了对现实世界任务的深度模拟。该数据集整合了来自多个社区基准测试的精选任务，涵盖通用代理任务、多模态任务以及多轮对话场景。构建过程注重任务的多样性与真实性，通过精心设计的任务指令和配套的夹具文件，确保每个评估场景都能准确反映代理在复杂环境中的实际表现。数据集的三个独立划分——通用、多模态与多轮对话——分别针对不同的代理能力维度，形成了层次分明的评估体系。

特点

Claw-Eval数据集的核心特点在于其端到端的透明评估框架，专注于模拟真实世界的人工智能代理行为。数据集包含300个任务，覆盖24个不同领域，如通信、金融、运营与生产力等，兼具英语和中文双语支持。多模态任务要求代理具备感知与创造能力，例如网页生成与视频问答；多轮对话任务则模拟与虚拟用户的交互，以测试代理的持续对话与需求澄清能力。这种多维度的任务设计使得该数据集能够全面评估代理在复杂、动态环境中的综合性能。

使用方法

使用Claw-Eval数据集进行代理评估时，研究人员可通过Hugging Face的datasets库便捷加载。数据集支持整体加载或按划分单独加载，便于针对特定能力维度进行测试。每个任务实例包含唯一的任务标识、详细指令、所需夹具文件列表、语言及领域分类，用户可据此构建自定义的评估流程。通过模拟真实场景的任务执行，该数据集为衡量代理在端到端任务中的表现提供了标准化、可复现的基准平台。

背景与挑战

背景概述

Claw-Eval数据集由北京大学和香港大学的研究团队于2026年联合创建，旨在为现实世界中的AI智能体提供一个端到端的透明化评估基准。该数据集聚焦于评估智能体在跨领域任务中的综合能力，涵盖通用任务、多模态任务以及多轮对话任务，涉及通信、金融、运营、生产力等24个现实场景。其核心研究问题在于如何系统性地衡量智能体在复杂、动态的真实环境中的感知、决策与执行效能，从而推动通用人工智能向实用化方向发展，对智能体评估领域产生了重要的方法论影响。

当前挑战

Claw-Eval数据集致力于解决现实世界AI智能体评估的挑战，其核心在于如何设计能够全面反映智能体在开放域、多模态交互及长程任务中泛化与适应能力的评测任务。构建过程中的挑战包括：整合并规范化来自多个社区基准的异构任务数据，确保评估场景的真实性与多样性；为多模态任务设计可复现的固定装置，以支持感知与生成能力的可靠测试；以及构建具有连贯上下文的多轮对话任务，以模拟智能体与真实用户的动态交互过程。

常用场景

经典使用场景

在人工智能代理领域，Claw-Eval数据集被广泛应用于端到端的透明化基准测试，以评估代理在真实世界场景中的综合能力。该数据集通过涵盖通用任务、多模态任务和多轮对话任务，模拟了代理在通信、金融、运营等24个领域的实际交互需求，为研究者提供了一个标准化的评估平台，用以检验代理的感知、推理和行动能力。

解决学术问题

Claw-Eval数据集解决了人工智能代理研究中缺乏统一、透明且贴近现实世界的评估基准的学术问题。它通过整合多源社区贡献的任务，构建了一个涵盖多语言、多领域和多模态的测试集，促进了代理在复杂环境下的性能量化与比较，从而推动了代理智能体在泛化性、鲁棒性和实用性方面的理论探索与模型优化。

衍生相关工作

基于Claw-Eval数据集，衍生了一系列经典研究工作，包括OpenClaw、PinchBench、OfficeQA等社区项目的任务适配与扩展。这些工作进一步丰富了代理评估的维度和深度，例如在金融代理、终端操作和多轮对话领域开发了专项基准，推动了整个AI代理生态在透明性、可复现性和跨任务泛化能力方面的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集