DABstep

Name: DABstep
Creator: Adyen
Published: 2025-06-30 18:49:21
License: 暂无描述

arXiv2025-06-30 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/adyen/DABstep

下载链接

链接失效反馈

官方服务：

资源简介：

DABstep是一个用于评估AI代理在现实多步数据分析任务上的性能的新型基准。它包含超过450个来自金融分析平台的真实世界挑战，需要模型将基于代码的数据处理与对异构文档的上下文推理相结合。每个任务都需要迭代的多步问题解决方法，测试数据操作、跨引用多个源和精确结果报告的能力。该基准提供了一种事实性答案格式，并具有自动正确性检查，以实现大规模的客观评分。我们评估了领先的基于LLM的代理，揭示了一个巨大的性能差距：即使是最好的代理在最具挑战性的任务上也只能达到14.55%的准确率。我们详细介绍了我们基准的设计、数据集组成、任务制定、评估协议、报告基线结果和分析失败模式。DABstep发布了公共排行榜和工具包，以加速自主数据分析的研究。

DABstep is a novel benchmark for evaluating the performance of AI Agents on real-world multi-step data analysis tasks. It contains over 450 real-world challenges sourced from financial analysis platforms, which require models to combine code-based data processing with contextual reasoning over heterogeneous documents. Each task demands an iterative, multi-step problem-solving approach, testing the abilities of data manipulation, cross-referencing multiple sources, and accurate result reporting. This benchmark provides a factual answer format and supports automatic correctness checking to enable large-scale objective scoring. We evaluated state-of-the-art LLM-based AI Agents, revealing a significant performance gap: even the best agents only achieve 14.55% accuracy on the most challenging tasks. We detail the design of our benchmark, dataset composition, task formulation, evaluation protocol, reported baseline results, and failure mode analysis. DABstep has released a public leaderboard and toolkit to accelerate research on autonomous data analysis.

提供机构：

Adyen

创建时间：

2025-06-30

搜集汇总

数据集介绍

构建方式

DABstep数据集构建基于金融分析平台Adyen的真实业务场景，精心筛选了450余项多步骤数据分析任务。这些任务源自实际工作负载，涵盖结构化数据（如CSV、JSON）与非结构化文档（如技术手册）的交叉分析需求。通过参数化核心问题生成多样化实例，确保评估泛化能力而非记忆性表现。数据经过严格匿名化处理，并配备详尽的领域知识文档（如商户类别代码手册），采用标准化Markdown格式呈现。

使用方法

使用DABstep需通过Python环境加载数据集与文档，代理需自主规划分析流程：包括数据过滤、聚合计算、文档查阅及中间结果验证。官方提供React风格的标准提示模板，建议采用分步推理-代码执行-结果验证的循环机制。评估通过在线排行榜提交，采用混合评分算法（容忍数值舍入/列表顺序差异）。开发者可利用公开的示例集验证流程，最终在隐藏测试集上测试零样本泛化能力。

背景与挑战

背景概述

DABstep（Data Agent Benchmark for Multi-step Reasoning）是由Adyen和Hugging Face的研究团队于2025年推出的一个创新性基准测试数据集，旨在评估AI代理在真实多步骤数据分析任务中的表现。该数据集包含超过450个源自金融分析平台的实际挑战，要求模型结合基于代码的数据处理和异构文档的上下文推理能力。DABstep的创建填补了现有基准测试在真实场景复杂性和多步骤推理评估方面的空白，为数据科学和软件工程领域的自主代理研究提供了重要工具。

当前挑战

DABstep面临的核心挑战主要体现在两个方面：领域问题解决方面，该数据集针对的是复杂多步骤数据分析任务，要求AI代理具备数据操作、跨源引用和精确结果报告等能力，而当前最先进的LLM代理在最难任务上的准确率仅为14.55%；在构建过程中，研究团队需要克服真实场景任务设计、异构数据整合以及客观评估机制建立等挑战，特别是如何平衡任务的真实性与评估的客观性，避免依赖主观的LLM-as-a-judge方法。

常用场景

经典使用场景

在金融数据分析领域，DABstep数据集被广泛用于评估AI代理在多步骤推理任务中的表现。该数据集包含450多个真实世界的数据分析挑战，要求模型结合代码数据处理和异构文档的上下文推理能力。这些任务通常涉及数据过滤、聚合计算、参考表查询等复杂操作，模拟了专业数据分析师在实际工作中面临的复杂场景。

解决学术问题

DABstep数据集有效解决了当前AI代理评估中的关键问题，包括过度依赖合成任务、评估方法过于简化以及主观评估偏差等。通过提供真实金融分析平台的任务，该数据集能够更准确地反映现实世界中的分析挑战，为研究多步骤推理、上下文理解和精确结果报告等核心能力提供了标准化测试平台。

实际应用

在实际应用中，DABstep数据集被金融机构和技术公司用于开发和优化自动化数据分析系统。这些系统能够处理复杂的金融查询，如欺诈率分析、费用影响评估等，显著提高了数据分析的效率和准确性。数据集的任务设计直接来源于实际业务需求，确保了解决方案的商业实用价值。

数据集最近研究