five

FDAbench-Full, FDAbench-Lite

收藏
github2025-09-09 更新2025-09-10 收录
下载链接:
https://github.com/fdabench/FDAbench
下载链接
链接失效反馈
官方服务:
资源简介:
FDAbench是首个专门为多源数据分析场景中评估代理而设计的数据代理基准。包含2007个多样化任务,涵盖不同数据源、领域、难度级别和任务类型,全面评估数据代理性能。数据集包含三个不同的任务类别:报告、单选和多选。FDAbench-Full包含2007个全面测试用例,FDAbench-Lite提供289个纯SQLite测试用例以实现更快的实验

FDAbench is the first data agent benchmark specifically designed for evaluating agents in multi-source data analysis scenarios. It comprises 2007 diverse tasks covering different data sources, domains, difficulty levels and task types, enabling comprehensive performance assessment of data agents. The dataset includes three distinct task categories: reporting, single-choice and multiple-choice. FDAbench-Full contains 2007 comprehensive test cases, while FDAbench-Lite provides 289 pure SQLite test cases to facilitate faster experimental workflows.
创建时间:
2025-09-02
原始信息汇总

FDABench 数据集概述

数据集基本信息

  • 数据集名称:FDABench
  • 发布状态:已在 HuggingFace 官方发布
  • 许可证:MIT License
  • 论文链接:https://arxiv.org/pdf/2509.02473

数据集规模与构成

  • FDABench-Full:包含 2,007 个全面测试用例
  • FDABench-Lite:提供 289 个纯 SQLite 测试用例,用于快速实验
  • 任务类型:报告模式、单选题、多选题
  • 数据源:支持多源异构数据分析场景

核心特性

  • 开源数据代理实现:提供多个即用型数据代理工作流实现
  • 代理评估框架:全面支持评估多样化数据代理架构
  • 通用数据库兼容性:无缝集成多种数据库系统和真实生产环境
  • 灵活数据代理任务架构:支持三种不同工作负载类型
  • 高级评估指标:内置全面的评估系统
  • 丰富代理工具生态系统:集成广泛的工具集合
  • 可扩展代理框架:模块化基类和接口
  • 成本监控:令牌使用跟踪和成本分析

任务类别

  • 单选题:只有一个正确答案的多选题
  • 多选题:允许多个正确答案的问题
  • 报告模式:需要全面数据库分析的开放式分析任务

数据集格式

输入模式

json { "task_id": "FDA123", "instance_id": "bq001", "db": "ga360", "level": "hard", "database_type": "Spider2-lite", "question_type": "single_choice", "tools_available": ["get_schema_info", "generated_sql", "execute_sql"], "query": "Your database question here", "options": { "A": "Option A text", "B": "Option B text", "C": "Option C text", "D": "Option D text" }, "correct_answer": ["C"], "explanation": "Detailed explanation of the correct answer" }

评估指标

  • 准确率:正确回答问题百分比
  • 执行成功率:成功执行 SQL 查询的比率
  • 延迟:每个查询的平均端到端响应时间
  • 工具使用得分:工具选择和使用的有效性

数据获取方式

  • HuggingFace 数据集
    • FDAbench2026/Fdabench-Full
    • FDAbench2026/Fdabench-Lite
  • SQLite 数据库文件:https://drive.google.com/file/d/1Ae2XQ-3VvhDvqfCBbIbeyQeYim58GFp7/view?usp=sharing
  • BIRD 数据集:https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird
  • Spider2-lite 数据集:https://github.com/xlang-ai/Spider2/tree/main/methods/spider-agent-lite
  • 非结构化数据集:https://drive.google.com/file/d/1so5dvpB2aroy4NMaxh4FmnmGhGhPGvIs/view?usp=sharing

技术支持

  • Python 版本要求:3.10+
  • 操作系统支持:Linux、macOS、Windows
  • 数据库支持:SQLite、Snowflake、BigQuery
搜集汇总
数据集介绍
main_image_url
构建方式
在数据智能体评估领域,FDABench通过创新的智能体-专家协作框架构建数据集,确保异构数据基准的可靠性与高效性。该框架采用三阶段生成流程:数据初始化阶段整合多源原始SQL查询与执行结果;专家验证阶段引入人工审核机制,对生成内容进行接受、处置或修订;最终化阶段将审核后的测试用例标准化为结构化JSON格式,涵盖报告生成、单选及多选三类任务,并标注难度等级与数据库类型。
特点
FDABench作为首个专注于多源数据分析场景的智能体评估基准,其核心特征体现在多维度的任务设计。数据集包含2007个测试用例,覆盖Snowflake、BigQuery及SQLite等多种数据库系统,并融入非结构化数据处理挑战。任务类型分为开放性报告生成、单项选择与多项选择,难度层级从基础到复杂全面分布。该数据集特别强调对智能体工具使用效率、SQL执行成功率及跨系统泛化能力的评估,并内置词元消耗监控与延迟分析功能。
使用方法
用户可通过HuggingFace平台直接加载FDAbench-Lite(289个测试用例)或FDAbench-Full(完整2007个用例)数据集。使用前需配置Python 3.10+环境,并通过数据库连接管理器设置本地或云端数据库路径。基准测试提供规划智能体、多智能体系统等预置实现,用户可通过标准化JSON接口输入任务数据,调用智能体的process_query_from_json方法处理查询。系统自动输出准确性、延迟及工具使用评分等指标,结果保存至DuckDB文件以供深度分析。
背景与挑战
背景概述
随着多源异构数据分析需求的日益增长,数据智能体在复杂数据库环境中的性能评估成为关键研究课题。FDABench数据集由研究团队于2025年创建,作为首个专门针对多源数据分析场景的数据智能体基准测试平台,其核心研究问题在于如何系统评估智能体在跨数据库查询、语义操作和复杂任务执行中的综合能力。该数据集涵盖2007个多样化测试案例,涉及报告生成、单选及多选三类任务类型,为数据智能体的准确性、延迟和工具使用效率提供了标准化评估框架,显著推动了智能体在真实生产环境中的适用性研究。
当前挑战
FDABench致力于解决多源异构数据库环境中数据智能体的综合性能评估挑战,包括跨数据库查询优化、语义操作集成及复杂分析任务执行等核心问题。在构建过程中,研究团队面临多重技术挑战:首先需协调多种数据库系统(如SQLite、BigQuery、Snowflake)的异构数据模式,确保测试案例的通用性与可移植性;其次需设计可靠的智能体-专家协作框架,以生成高质量且多样化的测试数据;此外还需实现与多种语义操作符(如DocETL、Lotus)的无缝集成,以支持高级数据处理功能的评估。
常用场景
经典使用场景
在数据智能体研究领域,FDABench作为首个专为多源数据分析场景设计的基准测试平台,其经典使用场景主要体现在对各类数据智能体系统进行全面性能评估。研究人员通过该数据集的标准测试用例,能够系统性地验证智能体在异构数据库环境下的查询处理能力,涵盖单选择、多选择及开放式报告生成三种任务类型。该数据集支持从基础SQLite到云端Snowflake、BigQuery等多种数据库系统的无缝集成,为比较不同智能体架构在准确性、延迟和资源消耗等方面的表现提供了标准化实验环境。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于FDABench的智能体架构优化研究、跨数据库系统的语义操作符设计以及多智能体协作机制创新。相关经典工作涵盖了规划智能体的分步推理改进、反射智能体的自优化策略以及工具使用智能体的精准选择算法。这些衍生研究不仅深化了对数据智能体认知能力的理解,还推动了DocETL、Lotus和Palimpzest等语义操作符框架的发展,为构建下一代智能数据分析系统奠定了理论基础。
数据集最近研究
最新研究方向
在数据智能体评估领域,FDABench作为首个专注于多源数据分析场景的基准测试框架,正推动着异构数据处理技术的前沿探索。当前研究聚焦于智能体架构的泛化能力优化,通过集成语义操作符和跨数据库系统兼容性设计,显著提升了复杂查询任务的执行效率。该数据集支持工具使用型、多智能体协同、规划型及反思型等多种架构的对比评估,为大规模语言模型在真实生产环境中的部署提供了关键性能指标。热点研究方向包括动态工具选择机制、语义感知的查询优化以及多模态数据融合分析,这些进展对金融风控、商业智能等领域的自动化决策系统具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作