FDABench
收藏FDABench 数据集概述
数据集简介
FDABench 是首个专为多源数据分析场景设计的数据智能体基准测试数据集,包含 2,007 个多样化任务,涵盖不同数据源、领域、难度级别和任务类型。
核心特征
- 开源数据智能体实现:提供多个即用型数据智能体工作流实现
- 智能体评估框架:全面支持评估多样化数据智能体架构
- 通用数据库兼容性:无缝集成多个数据库系统和真实生产环境
- 灵活任务架构:支持三种不同工作负载类型
- 高级评估指标:内置全面评估系统
- 丰富工具生态系统:集成数据库模式分析、SQL查询优化、网络搜索能力和向量数据库操作等工具
- 可扩展智能体框架:模块化基类和接口
- 成本监控:实时令牌使用跟踪和成本分析
任务类型
- 单项选择:只有一个正确答案的多项选择题
- 多项选择:允许多个正确答案的问题
- 自由形式报告:需要全面数据库分析的开放式分析任务
数据集规模
- 总任务数量:2,007 个
- 覆盖领域:多领域
- 难度级别:多样化难度级别
数据格式
输入模式
使用结构化 JSON 格式: json { "task_id": "FAD123", "instance_id": "bq001", "db": "ga360", "level": "hard", "database_type": "Spider2-lite", "question_type": "single_choice", "tools_available": ["get_schema_info", "generated_sql", "execute_sql"], "query": "Your database question here", "options": { "A": "Option A text", "B": "Option B text", "C": "Option C text", "D": "Option D text" }, "correct_answer": ["C"], "explanation": "Detailed explanation of the correct answer" }
数据集结构
dataset_path/ ├── task_type_mapping.json # 任务ID到智能体类型的映射 ├── test_singlechoice.json # 单项选择题 ├── test_multichoice.json # 多项选择题 └── test_report.json # 报告生成任务
评估指标
核心指标
- 准确率:正确回答问题的百分比
- 执行成功率:成功执行SQL查询的比率
- 延迟:每个查询的平均响应时间
- 令牌效率:每个成功查询使用的令牌数
- 工具使用得分:工具选择和使用的有效性
高级分析
- 错误分析:失败模式的分类
- 复杂度扩展:不同难度级别的性能表现
- 数据库类型性能:按数据库系统分段的结果
- 智能体架构比较:跨智能体类型的比较分析
支持的数据源
- SQLite数据库:BIRD数据集、Spider2-lite数据集
- 云数据库:BigQuery、Snowflake
- 本地数据库:自定义本地数据库
目录结构
FDABench/ ├── dataset/ # 完整基准测试数据集(2,007个任务) │ ├── test_singlechoice.json # 单项选择题 │ ├── test_multichoice.json # 多项选择题 │ └── test_report.json # 报告生成任务 ├── sample/ # 内置测试样本数据 │ ├── sample_data.json # 样本任务配置 │ └── regional_sales/ # 样本数据库目录 │ └── regional_sales.sqlite # 样本SQLite数据库
许可证
MIT 许可证




