FDAbench-Full, FDAbench-Lite

github2025-09-09 更新2025-09-10 收录

下载链接：

https://github.com/fdabench/FDAbench

下载链接

链接失效反馈

官方服务：

资源简介：

FDAbench是首个专门为多源数据分析场景中评估代理而设计的数据代理基准。包含2007个多样化任务，涵盖不同数据源、领域、难度级别和任务类型，全面评估数据代理性能。数据集包含三个不同的任务类别：报告、单选和多选。FDAbench-Full包含2007个全面测试用例，FDAbench-Lite提供289个纯SQLite测试用例以实现更快的实验

FDAbench is the first data agent benchmark specifically designed for evaluating agents in multi-source data analysis scenarios. It comprises 2007 diverse tasks covering different data sources, domains, difficulty levels and task types, enabling comprehensive performance assessment of data agents. The dataset includes three distinct task categories: reporting, single-choice and multiple-choice. FDAbench-Full contains 2007 comprehensive test cases, while FDAbench-Lite provides 289 pure SQLite test cases to facilitate faster experimental workflows.

创建时间：

2025-09-02

原始信息汇总

FDABench 数据集概述

数据集基本信息

数据集名称：FDABench
发布状态：已在 HuggingFace 官方发布
许可证：MIT License
论文链接：https://arxiv.org/pdf/2509.02473

数据集规模与构成

FDABench-Full：包含 2,007 个全面测试用例
FDABench-Lite：提供 289 个纯 SQLite 测试用例，用于快速实验
任务类型：报告模式、单选题、多选题
数据源：支持多源异构数据分析场景

核心特性

开源数据代理实现：提供多个即用型数据代理工作流实现
代理评估框架：全面支持评估多样化数据代理架构
通用数据库兼容性：无缝集成多种数据库系统和真实生产环境
灵活数据代理任务架构：支持三种不同工作负载类型
高级评估指标：内置全面的评估系统
丰富代理工具生态系统：集成广泛的工具集合
可扩展代理框架：模块化基类和接口
成本监控：令牌使用跟踪和成本分析

任务类别

单选题：只有一个正确答案的多选题
多选题：允许多个正确答案的问题
报告模式：需要全面数据库分析的开放式分析任务

数据集格式

输入模式

json { "task_id": "FDA123", "instance_id": "bq001", "db": "ga360", "level": "hard", "database_type": "Spider2-lite", "question_type": "single_choice", "tools_available": ["get_schema_info", "generated_sql", "execute_sql"], "query": "Your database question here", "options": { "A": "Option A text", "B": "Option B text", "C": "Option C text", "D": "Option D text" }, "correct_answer": ["C"], "explanation": "Detailed explanation of the correct answer" }

评估指标

准确率：正确回答问题百分比
执行成功率：成功执行 SQL 查询的比率
延迟：每个查询的平均端到端响应时间
工具使用得分：工具选择和使用的有效性

数据获取方式

HuggingFace 数据集：
- FDAbench2026/Fdabench-Full
- FDAbench2026/Fdabench-Lite
SQLite 数据库文件：https://drive.google.com/file/d/1Ae2XQ-3VvhDvqfCBbIbeyQeYim58GFp7/view?usp=sharing
BIRD 数据集：https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird
Spider2-lite 数据集：https://github.com/xlang-ai/Spider2/tree/main/methods/spider-agent-lite
非结构化数据集：https://drive.google.com/file/d/1so5dvpB2aroy4NMaxh4FmnmGhGhPGvIs/view?usp=sharing

技术支持

Python 版本要求：3.10+
操作系统支持：Linux、macOS、Windows
数据库支持：SQLite、Snowflake、BigQuery

搜集汇总

数据集介绍

构建方式

在数据智能体评估领域，FDABench通过创新的智能体-专家协作框架构建数据集，确保异构数据基准的可靠性与高效性。该框架采用三阶段生成流程：数据初始化阶段整合多源原始SQL查询与执行结果；专家验证阶段引入人工审核机制，对生成内容进行接受、处置或修订；最终化阶段将审核后的测试用例标准化为结构化JSON格式，涵盖报告生成、单选及多选三类任务，并标注难度等级与数据库类型。

特点

FDABench作为首个专注于多源数据分析场景的智能体评估基准，其核心特征体现在多维度的任务设计。数据集包含2007个测试用例，覆盖Snowflake、BigQuery及SQLite等多种数据库系统，并融入非结构化数据处理挑战。任务类型分为开放性报告生成、单项选择与多项选择，难度层级从基础到复杂全面分布。该数据集特别强调对智能体工具使用效率、SQL执行成功率及跨系统泛化能力的评估，并内置词元消耗监控与延迟分析功能。

使用方法

用户可通过HuggingFace平台直接加载FDAbench-Lite（289个测试用例）或FDAbench-Full（完整2007个用例）数据集。使用前需配置Python 3.10+环境，并通过数据库连接管理器设置本地或云端数据库路径。基准测试提供规划智能体、多智能体系统等预置实现，用户可通过标准化JSON接口输入任务数据，调用智能体的process_query_from_json方法处理查询。系统自动输出准确性、延迟及工具使用评分等指标，结果保存至DuckDB文件以供深度分析。

背景与挑战

背景概述

随着多源异构数据分析需求的日益增长，数据智能体在复杂数据库环境中的性能评估成为关键研究课题。FDABench数据集由研究团队于2025年创建，作为首个专门针对多源数据分析场景的数据智能体基准测试平台，其核心研究问题在于如何系统评估智能体在跨数据库查询、语义操作和复杂任务执行中的综合能力。该数据集涵盖2007个多样化测试案例，涉及报告生成、单选及多选三类任务类型，为数据智能体的准确性、延迟和工具使用效率提供了标准化评估框架，显著推动了智能体在真实生产环境中的适用性研究。

当前挑战

FDABench致力于解决多源异构数据库环境中数据智能体的综合性能评估挑战，包括跨数据库查询优化、语义操作集成及复杂分析任务执行等核心问题。在构建过程中，研究团队面临多重技术挑战：首先需协调多种数据库系统（如SQLite、BigQuery、Snowflake）的异构数据模式，确保测试案例的通用性与可移植性；其次需设计可靠的智能体-专家协作框架，以生成高质量且多样化的测试数据；此外还需实现与多种语义操作符（如DocETL、Lotus）的无缝集成，以支持高级数据处理功能的评估。

常用场景

经典使用场景

在数据智能体研究领域，FDABench作为首个专为多源数据分析场景设计的基准测试平台，其经典使用场景主要体现在对各类数据智能体系统进行全面性能评估。研究人员通过该数据集的标准测试用例，能够系统性地验证智能体在异构数据库环境下的查询处理能力，涵盖单选择、多选择及开放式报告生成三种任务类型。该数据集支持从基础SQLite到云端Snowflake、BigQuery等多种数据库系统的无缝集成，为比较不同智能体架构在准确性、延迟和资源消耗等方面的表现提供了标准化实验环境。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于FDABench的智能体架构优化研究、跨数据库系统的语义操作符设计以及多智能体协作机制创新。相关经典工作涵盖了规划智能体的分步推理改进、反射智能体的自优化策略以及工具使用智能体的精准选择算法。这些衍生研究不仅深化了对数据智能体认知能力的理解，还推动了DocETL、Lotus和Palimpzest等语义操作符框架的发展，为构建下一代智能数据分析系统奠定了理论基础。

数据集最近研究