five

AgenticDataBench

收藏
github2026-04-11 更新2026-04-12 收录
下载链接:
https://github.com/AgenticDataBench/AgenticDataBench
下载链接
链接失效反馈
官方服务:
资源简介:
AgenticDataBench是一个用于评估基于LLM的数据代理的综合性基准测试,旨在自动化现实世界的数据科学工作流程。它通过提供多样化的现实任务和细粒度的真实标签,解决了缺乏严格评估的问题。该基准测试涵盖15个领域,包括真实的B2B金融科技用例,并围绕可重用的数据科学技能构建,这些技能是从大规模任务解决方案中提取的核心操作模式。

AgenticDataBench is a comprehensive benchmark for evaluating LLM-based data agents, aimed at automating real-world data science workflows. It addresses the gap in rigorous evaluation by providing diverse realistic tasks and fine-grained ground-truth labels. This benchmark encompasses 15 domains, including real B2B fintech use cases, and is built around reusable data science skills—core operational patterns extracted from large-scale task solutions.
创建时间:
2026-04-10
搜集汇总
数据集介绍
main_image_url
构建方式
在数据科学自动化领域,AgenticDataBench的构建体现了系统化与多样化的融合。该基准测试通过整合真实世界任务与系统生成任务,确保了覆盖范围的广度与任务的代表性。具体而言,团队从大规模任务解决方案中提取出可复用的数据科学技能,形成核心操作模式,并将其组织为技能簇。同时,基准测试涵盖了15个不同领域,包括真实的B2B金融科技用例,通过精心策划与生成相结合的方式,有效减少了冗余,为评估提供了丰富且贴近实际的数据基础。
使用方法
使用AgenticDataBench进行基准测试的过程清晰而高效。用户首先需要配置API密钥并安装必要的依赖包,随后可以通过提供的脚本运行评估,支持不同的代理框架如DA-Agent和Smolagents。评估完成后,利用专门的评估脚本对输出结果进行分析,即可获得整体及技能层面的性能指标。基准测试的数据集、任务描述和真实标签均公开可访问,方便研究者进行深入实验与比较,同时其模块化设计也允许用户探索任务生成与技能构建的底层过程。
背景与挑战
背景概述
随着大语言模型在数据科学领域的深入应用,自动化数据工作流代理的评估成为亟待解决的关键问题。AgenticDataBench由清华大学与蚂蚁集团数字科技联合构建,旨在为基于大语言模型的数据代理提供一个全面且严谨的评估基准。该基准通过整合真实世界任务与系统性生成任务,覆盖了包括B2B金融科技在内的15个领域,并围绕可复用的数据科学技能进行结构化组织,从而填补了该领域缺乏细粒度、多样化评估工具的空白,对推动自动化数据科学的发展具有重要的学术与产业影响力。
当前挑战
在数据科学自动化领域,核心挑战在于如何准确评估代理在复杂、多步骤工作流中的综合能力,这超越了传统的单一任务性能度量。AgenticDataBench的构建过程面临双重挑战:其一,在领域问题层面,需设计能够真实反映现实数据科学场景的多样化任务,并建立细粒度的技能级评估体系,以精准诊断代理的能力边界与失败模式;其二,在技术实现层面,需平衡数据集的广度与深度,在确保任务覆盖广泛领域的同时,避免冗余,并保障生成任务的质量与真实性,这对任务设计与验证机制提出了极高要求。
常用场景
经典使用场景
在数据科学自动化领域,AgenticDataBench作为评估基于大型语言模型的数据代理的综合性基准,其经典使用场景聚焦于模拟真实世界的数据科学工作流。该基准通过涵盖15个领域的多样化任务,包括B2B金融科技应用案例,为研究者提供了系统化的测试环境。数据代理在此基准上执行从数据清洗到模型构建的完整流程,其性能通过细粒度的真实标签得以精确衡量,从而揭示了自动化代理在复杂数据操作中的能力边界与优化方向。
解决学术问题
该数据集有效解决了数据科学自动化研究中缺乏标准化、严谨评估框架的学术难题。传统评估往往局限于孤立任务或合成数据,难以反映真实场景的复杂性。AgenticDataBench通过整合真实任务与系统生成任务,并围绕可复用的数据科学技能进行结构化组织,为衡量数据代理的泛化能力、技能掌握度及工作流可靠性提供了科学依据。其细粒度的性能洞察助力于识别代理的薄弱环节,推动了自动化数据科学在方法论上的理论深化与技术突破。
实际应用
在实际应用层面,AgenticDataBench为金融科技、商业智能等行业的自动化数据解决方案提供了关键的验证工具。企业可利用该基准评估内部开发的数据代理在处理真实业务数据(如风险分析、客户洞察)时的效率与准确性,从而降低人工成本并提升决策质量。同时,基准中涵盖的B2B场景直接关联产业需求,使得技术落地过程更具针对性与可信度,加速了数据驱动型智能代理从实验室研究到产业部署的转化进程。
数据集最近研究
最新研究方向
在数据科学与人工智能领域,自动化数据工作流正成为前沿探索的核心议题。AgenticDataBench作为针对基于大语言模型的数据代理的综合性基准,其最新研究方向聚焦于构建细粒度、可复用的数据科学技能评估体系。该基准通过整合真实商业场景与系统生成任务,覆盖金融科技等15个领域,旨在深入解析数据代理在复杂、多样化任务中的核心操作模式与性能瓶颈。相关研究热点紧密关联于大模型在自动化数据分析、代码生成与决策支持方面的实际应用,其影响在于为数据代理的标准化评估提供了严谨的实证基础,推动了智能数据工具在产业界的可靠部署与持续优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作