DataClawBench

github2026-05-16 更新2026-05-17 收录

下载链接：

https://github.com/GTML-LAB-sysu/DataClaw

下载链接

链接失效反馈

官方服务：

资源简介：

DataClawBench是一个面向过程的数据分析基准测试，用于真实、复杂的数据环境。其核心目标不仅是衡量代理的最终任务性能，还作为一个高保真的测试平台，以细粒度评估代理在面对现实世界复杂性和多步推理时的演化过程。

DataClawBench is a process-oriented data analysis benchmark tailored for realistic and complex data environments. Its core objectives extend beyond merely measuring the final task performance of AI agents; rather, it serves as a high-fidelity test platform that enables fine-grained evaluation of the evolutionary trajectory of agents as they grapple with real-world complexities and conduct multi-step reasoning.

创建时间：

2026-04-30

原始信息汇总

数据集概述：DataClawBench

DataClawBench 是一个面向 OpenClaw 风格端到端智能体的、面向过程的数据分析基准测试集。所有任务均基于真实世界数据，并具有单一的目标标准答案。

核心目标

评估智能体在复杂数据环境下的多步推理与执行能力，而非仅关注最终答案的正确性。
测试智能体在检索、过滤、计算、验证及遵守输出约束等完整流程中的表现。

数据集规模

维度	数值
任务总数	492
类别总数	7
难度分布	简单 131 / 中等 286 / 困难 75

数据来源与领域

数据来自真实世界，涵盖 3 个主题域 和 7 个二级主题，共包含 17 个独立数据源，另有一个根级业务逻辑知识库 internal_metrics.csv。

主题域	二级主题	数据源数量
企业（Enterprise）	企业概况、核心竞争力、经营状况	9
行业（Industry）	区域行业、全国行业	6
政策（Policy）	政策发布状况、政策全文	2

时间跨度：主要集中于 2022 年。
数据格式：主要为 CSV 格式，包含结构化字段和非结构化长文本内容。

任务类别与构成

类别代码	含义	数量	难度分布
`enterprise_industry_analysis`	企业-行业分析	226	简单115 / 中等111
`enterprise_industry_policy_analysis`	企业-行业-政策联动分析	76	简单10 / 中等66
`comprehensive_decision`	综合决策	70	简单6 / 中等45 / 困难19
`international_comparison`	国际比较	39	中等25 / 困难14
`hypothesis_verification`	假设验证	29	中等14 / 困难15
`industry_planning`	行业规划	28	中等14 / 困难14
`risk_assessment`	风险评估	24	中等11 / 困难13

评估指标体系

每个任务从四个维度进行评分：

指标	定义	适用范围	方向
Acc	LLM 评判的语义匹配准确率	所有任务	↑
EE	执行效率（金标准步数 / 实际步数）	正确任务	↑
GPR	目标进展率（已完成的里程碑比例）	错误任务	↑
TPE	时间进展效率（里程碑达成时间衰减平均）	错误任务	↑

框架与技术细节

统一框架：采用 OpenClaw 作为统一智能体框架。
评估方式：每个任务在独立的 Docker 容器中运行，由宿主机编排管理完整的生命周期。
中断恢复：支持自动保存进度文件并断点续跑。

搜集汇总

数据集介绍

构建方式

DataClawBench的构建根植于真实世界复杂数据分析场景的深刻洞察，由中山大学计算机学院陈川教授团队与南方周末科力研究中心联合发布。数据集以2022年为主要时间窗口，基于长期的一线数据积累与行业研究经验，经过必要的脱敏处理后，由金融与计算机科学领域专家手工编写任务。每个任务均包含由人类专家与AI辅助交叉验证的过程标注和唯一客观答案，其中过程标注涵盖任务里程碑、人工校正的参考轨迹与证据数据源。数据集采纳OpenClaw作为统一智能体框架，通过将异构数据文件整体注入Docker容器工作区，模拟包含缺失指标、定义不一致及命名冲突等真实摩擦的数据环境。

特点

DataClawBench的核心特质在于其面向真实场景的高保真度与过程导向的评估范式。数据环境包含企业、产业、政策三大主题领域，涵盖17个独立数据源和一份内部业务逻辑知识库，任务需跨文件对齐实体、跨表格连接字段、进行统计归一化计算并严格遵循输出约束，远非简单的单表查询。数据集涵盖492项任务，横跨7个类别，难度分布为131简单/286中等/75困难，特别包含企业—产业联动分析、国际比较与风险研判等复杂场景。评估体系突破传统仅关注最终结果的范式，创新性地引入执行效率（EE）、目标进展率（GPR）与时间进展效率（TPE）等过程性指标，在细粒度上刻画智能体的执行能力。

使用方法

使用DataClawBench进行评测需遵循标准化的容器化流程。首先从Releases下载并加载预构建的Docker映像，随后克隆仓库并安装pyyaml与python-dotenv等依赖。配置.env文件时需指定待测模型（如openrouter/anthropic/claude-sonnet-4.6）及API密钥，支持OpenRouter与自定义OpenAI兼容接口。评测通过dataclaw/eval/run_batch.py脚本驱动，支持全量任务运行、指定任务子集、并行容器执行及断点续评，每个任务在隔离容器中依次完成工作区注入、智能体接入、模型推理与LLM判分。运行结果按任务ID与时间戳组织，输出包含准确性得分、过程得分、令牌用量及完整对话记录，最终汇总至全局摘要文件供分析。

背景与挑战

背景概述

DataClawBench由中山大学计算机学院陈川教授团队联袂南方周末科创力研究中心于近期推出，旨在应对端到端数据分析智能体在现实复杂数据环境中的评估需求。该数据集的核心研究问题聚焦于智能体能否在多源异构、含噪声及弱语义的财务与产业数据中完成跨表检索、实体对齐、指标计算、结果验证及格式约束遵循等长链条操作。与ImageNet等静态图像分类基准不同，DataClawBench直面企业档案、行业统计与政策文本等真实业务场景，其发布标志着数据分析基准从“结果导向”向“过程导向”的范式转变，为智能体在研报撰写、产业分析等专业领域的能力演进提供了高保真测试平台。

当前挑战

DataClawBench所应对的首要挑战在于数据分析任务从静态问答转变为多步动态执行——智能体需在缺失指标、定义不一致及命名混乱的真实数据摩擦中完成跨文件实体对齐与聚合计算，而非进行单表键值检索。构建过程中亦面临显著困难：492个任务由金融与计算机领域专家手工编写，需确保每项任务的唯一客观答案及过程标注（包括里程碑与基准轨迹）均经人类与AI双重交叉验证；此外，17个数据源涵盖2022年企业、行业与政策三大主题域，在去标识化处理后仍保留真实业务噪声，这对数据集的可复现性和模型的知识泄漏规避提出了严苛要求。

常用场景

经典使用场景

在端到端智能体技术迅猛发展的浪潮中，数据分析任务的核心挑战已从静态问答转向多步推理与执行。DataClawBench应运而生，它专为评估OpenClaw风格的端到端智能体在复杂真实数据环境中的全链路执行能力而设计。该数据集精心构建了涵盖企业、行业、政策三大主题领域的17个数据源，包含492个任务，横跨企业产业分析、国际比较、假设验证等7个经典类别。每个任务均基于真实业务数据，要求智能体完成跨文件证据定位、实体对齐过滤、跨表连接、统计归一化计算、中间结果校验以及输出格式约束遵循等一系列复杂操作，从而系统性地衡量智能体从检索到验证的全流程执行效能。

实际应用

DataClawBench所模拟的数据分析场景与金融研究、战略咨询、产业政策分析等现实行业需求高度吻合。在实际部署中，一个数据分析智能体可能需要同时查阅多家企业的运营状态报表、区域行业统计数据及最新政策文本，以回答诸如“评估某地区新能源产业链的核心竞争力与政策激励匹配度”这类复合型问题。该数据集将此类复杂工作流封装为可重复执行的标准化任务，使得智能体在面向产业规划、风险预警、跨国比较等真实业务时，能够展现出可靠的实体对齐能力、多步推理韧性以及对输出格式的精准遵循，为智能体从实验室原型真正走向工业级应用提供了高保真的验证基石。

衍生相关工作

DataClawBench的发布催生了多个富有价值的研究分支。在过程评估方法论层面，其提出的执行效率、目标达成率与时间进度效率三维评分体系，激励了后续研究朝向更细粒度的智能体中间行为建模与可视化方向发展。在数据环境构建方面，该数据集对弱语义、多源异构数据的处理范式，启发了面向财务审计、医疗记录等垂直领域的同类基准的涌现。此外，围绕DataClawBench的任务适配框架，研究人员已开始探索如何将其492个任务迁移至不同智能体底座，用以系统性比对OpenClaw、ReAct、Plan-and-Solve等经典策略在真实摩擦数据上的优劣，从而反哺更鲁棒的端到端推理智能体架构设计。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集