FDABench

Name: FDABench
Creator: 南洋理工大学计算机与数据科学学院, 新加坡国立大学, 华为技术有限公司
Published: 2025-09-03 00:25:12
License: 暂无描述

arXiv2025-09-03 更新2025-09-05 收录

下载链接：

https://github.com/fdabench/FDAbench

下载链接

链接失效反馈

官方服务：

资源简介：

FDABench是一个用于评估多源数据分析场景中的数据代理的基准测试。该数据集包含2,007个多样化的任务，涵盖不同的数据源、领域、难度级别和任务类型，旨在全面评估数据代理的性能。数据集的设计旨在解决现有基准测试在测试用例设计、数据整合和评价管道适应性方面的局限性。FDABench的数据集由专家和代理协作构建，确保了数据的可靠性和合理性。数据集适用于多种目标系统和框架，为不同技术方法的数据代理系统提供了有意义的性能比较。

FDABench is a benchmark for evaluating data agents in multi-source data analysis scenarios. This dataset comprises 2,007 diverse tasks covering various data sources, domains, difficulty levels and task types, aiming to comprehensively evaluate the performance of data agents. The design of this dataset addresses the limitations of existing benchmarks in test case design, data integration and adaptability of evaluation pipelines. The FDABench dataset is collaboratively constructed by human experts and data agents, ensuring the reliability and plausibility of the data. The dataset is compatible with multiple target systems and frameworks, enabling meaningful performance comparisons for data agent systems adopting different technical approaches.

提供机构：

南洋理工大学计算机与数据科学学院, 新加坡国立大学, 华为技术有限公司

创建时间：

2025-09-03

原始信息汇总

FDABench 数据集概述

数据集简介

FDABench 是首个专为多源数据分析场景设计的数据智能体基准测试数据集，包含 2,007 个多样化任务，涵盖不同数据源、领域、难度级别和任务类型。

核心特征

开源数据智能体实现：提供多个即用型数据智能体工作流实现
智能体评估框架：全面支持评估多样化数据智能体架构
通用数据库兼容性：无缝集成多个数据库系统和真实生产环境
灵活任务架构：支持三种不同工作负载类型
高级评估指标：内置全面评估系统
丰富工具生态系统：集成数据库模式分析、SQL查询优化、网络搜索能力和向量数据库操作等工具
可扩展智能体框架：模块化基类和接口
成本监控：实时令牌使用跟踪和成本分析

任务类型

单项选择：只有一个正确答案的多项选择题
多项选择：允许多个正确答案的问题
自由形式报告：需要全面数据库分析的开放式分析任务

数据集规模

总任务数量：2,007 个
覆盖领域：多领域
难度级别：多样化难度级别

数据格式

输入模式

使用结构化 JSON 格式： json { "task_id": "FAD123", "instance_id": "bq001", "db": "ga360", "level": "hard", "database_type": "Spider2-lite", "question_type": "single_choice", "tools_available": ["get_schema_info", "generated_sql", "execute_sql"], "query": "Your database question here", "options": { "A": "Option A text", "B": "Option B text", "C": "Option C text", "D": "Option D text" }, "correct_answer": ["C"], "explanation": "Detailed explanation of the correct answer" }

数据集结构

dataset_path/ ├── task_type_mapping.json # 任务ID到智能体类型的映射 ├── test_singlechoice.json # 单项选择题 ├── test_multichoice.json # 多项选择题 └── test_report.json # 报告生成任务

评估指标

核心指标

准确率：正确回答问题的百分比
执行成功率：成功执行SQL查询的比率
延迟：每个查询的平均响应时间
令牌效率：每个成功查询使用的令牌数
工具使用得分：工具选择和使用的有效性

高级分析

错误分析：失败模式的分类
复杂度扩展：不同难度级别的性能表现
数据库类型性能：按数据库系统分段的结果
智能体架构比较：跨智能体类型的比较分析

支持的数据源

SQLite数据库：BIRD数据集、Spider2-lite数据集
云数据库：BigQuery、Snowflake
本地数据库：自定义本地数据库

目录结构

FDABench/ ├── dataset/ # 完整基准测试数据集（2,007个任务） │ ├── test_singlechoice.json # 单项选择题 │ ├── test_multichoice.json # 多项选择题 │ └── test_report.json # 报告生成任务 ├── sample/ # 内置测试样本数据 │ ├── sample_data.json # 样本任务配置 │ └── regional_sales/ # 样本数据库目录 │ └── regional_sales.sqlite # 样本SQLite数据库

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

FDABench采用专家-智能体协同框架构建异构数据分析基准，通过多阶段流程确保数据集质量。首先整合Spider、BIRD等四大权威文本到SQL数据集的107个数据库，并收集超过1600份跨50余领域的非结构化文档（PDF、音视频等）。随后运用智能体生成初始测试用例，结合Perplexity搜索和向量数据库检索补充上下文信息，最后由领域专家进行多轮验证与迭代优化，最终从3000余候选任务中精选2007个高质量任务，涵盖单选择、多选择和报告三种标准化任务类型。

特点

该数据集具备三大核心特征：多模态异构性融合了关系型数据库与非结构化文档的跨源分析场景；任务多样性覆盖了从数值计算到综合分析报告的完整评估谱系，包含415个简单任务、659个中等任务及933个复杂任务；评估系统性设计了工具调用准确率（TR）、任务成功率（SR）及ROUGE指标等多维度度量体系。其独特优势在于支持对规划智能体、工具调用智能体、反思智能体及多智能体四种工作流模式的性能对比，为异构数据分析智能体的全面评估提供标准化基础。

使用方法

研究者可通过标准化接口将目标数据智能体系统接入FDABench评估框架，系统自动配置结构化数据库工具（SQL执行器）与非结构化数据处理工具（向量检索、文档解析）。评估流程包含三个关键阶段：智能体处理2007个异构分析任务并生成标准化响应；系统采集响应质量（EX/ROUGE）、工具调用效率（TR/SR）及资源消耗（时延/Token成本）数据；最终通过统一度量体系生成性能报告。该框架支持端到端系统评估，也支持语义算子、RAG组件等模块级测试，确保不同架构智能体的公平对比。

背景与挑战

背景概述

FDABench由南洋理工大学、新加坡国立大学与华为技术有限公司的研究团队于2025年联合推出，旨在解决异构数据分析场景下数据智能体性能评估的标准化缺失问题。该数据集聚焦于多源数据集成分析的核心研究挑战，涵盖结构化数据库与非结构化文档的协同处理，通过2007项跨域任务系统评估数据智能体在复杂查询分解、工具调度与结果合成等方面的能力。其创新性工作为数据驱动决策领域提供了首个专门针对异构数据分析的基准测试框架，显著推动了智能数据代理系统的标准化发展与性能优化。

当前挑战

FDABench需应对三重核心挑战：其一，异构数据融合分析的评估复杂性，传统指标难以统一量化智能体在数值精确性与定性洞察混合输出中的综合性能；其二，多模态测试用例构建的可靠性难题，需在结构化数据库与非结构化文本、音视频数据间建立语义关联且避免LLM生成幻觉；其三，评估框架的泛化适配需求，需兼容规划式、反射式、多智能体等不同工作流模式，同时保证跨系统性能可比性。这些挑战要求基准测试同时具备任务多样性、数据异构性与架构灵活性。

常用场景

经典使用场景

在异构数据分析领域，FDABench作为首个专门针对多源数据代理的基准测试平台，其经典应用场景聚焦于评估数据代理系统在结构化与非结构化数据融合分析中的综合性能。该数据集通过2007个跨域任务，模拟真实商业环境中数据代理需要同时处理关系型数据库、文档、音视频等多模态数据的复杂场景，为研究者提供了系统性的性能评估框架。

实际应用

在实际应用层面，FDABench为金融分析、电子商务智能决策等场景提供了关键支撑。例如在电商流量分析中，数据代理需要整合数据库中的交易记录与网络文档中的市场研究报告，生成包含定量收入分析和定性增长模式的综合报告。该数据集通过模拟此类真实业务查询，帮助企业评估数据代理在跨系统数据协调、多工具调用及洞察生成方面的实际效能，为产业界选择合适的数据代理方案提供实证依据。

衍生相关工作

该数据集衍生出多个重要研究方向：首先是基于工作流模式的代理架构优化研究，如DAgent采用的规划代理框架和Taiji实现的多代理协作模式；其次是语义操作符系统的集成研究，包括LOTUS的跨模态操作符设计和Palimpzest的声明式查询处理；此外还推动了检索增强生成（RAG）系统的评估范式创新，如CORAG的成本约束检索优化和GraphRAG的图结构检索方法。这些衍生工作共同推动了异构数据代理技术向更高效、可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集