AgenticDataBench

github2026-04-11 更新2026-04-12 收录

下载链接：

https://github.com/AgenticDataBench/AgenticDataBench

下载链接

链接失效反馈

官方服务：

资源简介：

AgenticDataBench是一个用于评估基于LLM的数据代理的综合性基准测试，旨在自动化现实世界的数据科学工作流程。它通过提供多样化的现实任务和细粒度的真实标签，解决了缺乏严格评估的问题。该基准测试涵盖15个领域，包括真实的B2B金融科技用例，并围绕可重用的数据科学技能构建，这些技能是从大规模任务解决方案中提取的核心操作模式。

AgenticDataBench is a comprehensive benchmark for evaluating LLM-based data agents, aimed at automating real-world data science workflows. It addresses the gap in rigorous evaluation by providing diverse realistic tasks and fine-grained ground-truth labels. This benchmark encompasses 15 domains, including real B2B fintech use cases, and is built around reusable data science skills—core operational patterns extracted from large-scale task solutions.

创建时间：

2026-04-10

搜集汇总

数据集介绍

构建方式

在数据科学自动化领域，AgenticDataBench的构建体现了系统化与多样化的融合。该基准测试通过整合真实世界任务与系统生成任务，确保了覆盖范围的广度与任务的代表性。具体而言，团队从大规模任务解决方案中提取出可复用的数据科学技能，形成核心操作模式，并将其组织为技能簇。同时，基准测试涵盖了15个不同领域，包括真实的B2B金融科技用例，通过精心策划与生成相结合的方式，有效减少了冗余，为评估提供了丰富且贴近实际的数据基础。

使用方法

使用AgenticDataBench进行基准测试的过程清晰而高效。用户首先需要配置API密钥并安装必要的依赖包，随后可以通过提供的脚本运行评估，支持不同的代理框架如DA-Agent和Smolagents。评估完成后，利用专门的评估脚本对输出结果进行分析，即可获得整体及技能层面的性能指标。基准测试的数据集、任务描述和真实标签均公开可访问，方便研究者进行深入实验与比较，同时其模块化设计也允许用户探索任务生成与技能构建的底层过程。

背景与挑战

背景概述

随着大语言模型在数据科学领域的深入应用，自动化数据工作流代理的评估成为亟待解决的关键问题。AgenticDataBench由清华大学与蚂蚁集团数字科技联合构建，旨在为基于大语言模型的数据代理提供一个全面且严谨的评估基准。该基准通过整合真实世界任务与系统性生成任务，覆盖了包括B2B金融科技在内的15个领域，并围绕可复用的数据科学技能进行结构化组织，从而填补了该领域缺乏细粒度、多样化评估工具的空白，对推动自动化数据科学的发展具有重要的学术与产业影响力。

当前挑战

在数据科学自动化领域，核心挑战在于如何准确评估代理在复杂、多步骤工作流中的综合能力，这超越了传统的单一任务性能度量。AgenticDataBench的构建过程面临双重挑战：其一，在领域问题层面，需设计能够真实反映现实数据科学场景的多样化任务，并建立细粒度的技能级评估体系，以精准诊断代理的能力边界与失败模式；其二，在技术实现层面，需平衡数据集的广度与深度，在确保任务覆盖广泛领域的同时，避免冗余，并保障生成任务的质量与真实性，这对任务设计与验证机制提出了极高要求。

常用场景

经典使用场景

在数据科学自动化领域，AgenticDataBench作为评估基于大型语言模型的数据代理的综合性基准，其经典使用场景聚焦于模拟真实世界的数据科学工作流。该基准通过涵盖15个领域的多样化任务，包括B2B金融科技应用案例，为研究者提供了系统化的测试环境。数据代理在此基准上执行从数据清洗到模型构建的完整流程，其性能通过细粒度的真实标签得以精确衡量，从而揭示了自动化代理在复杂数据操作中的能力边界与优化方向。

解决学术问题

该数据集有效解决了数据科学自动化研究中缺乏标准化、严谨评估框架的学术难题。传统评估往往局限于孤立任务或合成数据，难以反映真实场景的复杂性。AgenticDataBench通过整合真实任务与系统生成任务，并围绕可复用的数据科学技能进行结构化组织，为衡量数据代理的泛化能力、技能掌握度及工作流可靠性提供了科学依据。其细粒度的性能洞察助力于识别代理的薄弱环节，推动了自动化数据科学在方法论上的理论深化与技术突破。

实际应用

在实际应用层面，AgenticDataBench为金融科技、商业智能等行业的自动化数据解决方案提供了关键的验证工具。企业可利用该基准评估内部开发的数据代理在处理真实业务数据（如风险分析、客户洞察）时的效率与准确性，从而降低人工成本并提升决策质量。同时，基准中涵盖的B2B场景直接关联产业需求，使得技术落地过程更具针对性与可信度，加速了数据驱动型智能代理从实验室研究到产业部署的转化进程。

数据集最近研究