FalCon - Text2SQL Benchmark

github2025-07-24 更新2025-07-25 收录

自然语言处理

SQL查询

数据链接：

https://github.com/inclusionAI/Falcon 数据链接链接失效反馈

官方服务：

资源简介：

FalCon是一个持续发展的高质量基准测试，用于自然语言到SQL（NL2SQL）系统。该基准测试旨在通过复杂、跨领域的分析场景对模型进行压力测试，特别关注SQL计算难度和语言难度。

FalCon is a continuously evolving high-quality benchmark test designed for natural language to SQL (NL2SQL) systems. This benchmark aims to stress-test models through complex, cross-domain analytical scenarios, with a particular focus on the computational difficulty and linguistic complexity of SQL.

创建时间：

2025-07-22

原始信息汇总

FalCon - Text2SQL 基准数据集概述

数据集简介

名称：FalCon
类型：自然语言转SQL（NL2SQL）基准测试
特点：
- 持续演进的高质量基准
- 专注于复杂、跨领域的分析场景
- 强调SQL计算难度和语言难度

核心关注点

SQL计算难度：
- 多表连接
- 嵌套CTE
- 窗口函数
- 排名
- 类型转换
- 正则表达式过滤
语言难度：
- 中文模糊时间表达
- 口语化商业术语
- 省略
- 多意图问题

数据构成

基础数据：基于Kaggle公开数据集
覆盖领域：金融、互联网、零售
问题集：按难度分级

发布状态

特性	状态
500个中文问题（不同难度）	✅ 已发布
更多模糊/模糊语言表达问题	🔄 准备中
蚂蚁集团真实生产场景问题	🔄 准备中

文件结构

text2sqlbench/ ├── data/ │ ├── tables # 源表 │ ├── benchmark_dataset.xlsx # 核心文件：问题 + SQL + 答案 + 元数据 │ ├── table_relations.csv # 表间关系 │ ├── Table Relations.pdf # 关系数据库ER图
│ └── dataset_source.csv # 表来源信息 ├── examples/ # 示例脚本（即将推出） └── README.md # 说明文件

核心文件说明

benchmark_dataset.xlsx
- 列结构：
  - id：问题ID（浮点数格式）
  - dataset_id：模式/领域标识符
  - question：中文自然语言问题
  - sql_answer：可执行SQL（MaxCompute语法）
  - query_answer：SQL返回的规范答案（JSON格式）
table_relations.csv
- 描述表间成对关系
- 示例：indexData 多对一 indexInfo
dataset_source.csv
- 数据来源信息
- 包含Kaggle链接等

贡献指南

接受贡献类型：
- 新问题-SQL对
- 新领域或外部数据集
- 现有样本错误修复
- 评估脚本

许可信息

许可证：Apache License, Version 2.0
完整法律文本：https://www.apache.org/licenses/LICENSE-2.0

致谢

Kaggle社区提供公开数据集
蚂蚁集团工程师提供匿名真实场景模式和问题模式

搜集汇总

数据集介绍

构建方式

FalCon数据集作为自然语言转SQL（NL2SQL）领域的专业基准测试工具，其构建过程体现了严谨的跨领域设计理念。该数据集基于Kaggle公开数据集构建，涵盖金融、互联网和零售三大领域，通过精心设计的难度梯度问题集来系统评估模型性能。数据构建采用多维度标注体系，每个问题均包含中文自然语言描述、标准SQL语句（MaxCompute语法）、执行结果JSON以及元数据标识，并通过table_relations.csv明确定义表间关联关系，确保数据库模式图的完整性。

使用方法

使用该数据集时，研究者可通过benchmark_dataset.xlsx获取核心测试样本，其中question列提供中文自然语言输入，sql_answer列作为评估标准。配套的table_relations.csv文件可辅助构建数据库模式理解模块，而dataset_source.csv则便于追溯数据来源。评估时需注意SQL语法采用MaxCompute规范，系统应能解析JSON格式的标准答案进行自动评分。对于进阶研究，可利用提供的ER图深入分析模型在复杂关系推理中的表现。

背景与挑战

背景概述

FalCon - Text2SQL Benchmark是由Ant Group等机构联合开发的自然语言转SQL（NL2SQL）领域的专业评测基准，旨在推动跨领域复杂分析场景下的语义解析技术发展。该数据集聚焦金融、互联网和零售三大领域，通过精心设计的难度分级问题集，系统评估模型处理多表连接、嵌套CTE、窗口函数等高阶SQL运算的能力，同时涵盖中文模糊时间表达、口语化商业术语等语言学挑战。其创新性地采用Kaggle公开数据集与真实生产场景相结合的数据构建方式，为NL2SQL研究提供了兼具广度和深度的评估框架。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，需解决跨域复杂查询中语义歧义消除、隐含约束推理等难题，特别是处理中文特有的模糊表达与业务术语时，传统基于模板的方法往往失效；在构建过程中，如何平衡SQL运算复杂度与语言多样性，确保问题集的渐进式难度设计，以及维护大规模标注数据中SQL语法与业务逻辑的一致性，都是极具挑战性的任务。此外，真实生产场景中的动态数据分布与标注噪声问题，也对数据集的持续迭代提出了更高要求。

常用场景

经典使用场景

在自然语言处理与数据库交互领域，FalCon数据集作为文本到SQL转换的高质量基准，广泛应用于评估模型处理复杂跨领域分析场景的能力。其精心设计的金融、互联网和零售领域问题集合，涵盖多表连接、嵌套CTE、窗口函数等高级SQL操作，为研究者提供了衡量模型在真实商业环境中表现的标准平台。

解决学术问题

该数据集有效解决了NL2SQL领域两大核心挑战：针对SQL计算复杂性，通过分层难度设计量化模型处理多表关联与高级查询的能力；针对语言模糊性，采用中文口语化表达及时态模糊等真实语料，填补了现有基准在非英语语境下的评估空白。其细粒度的难度分级机制为模型能力边界研究提供了新的方法论框架。

实际应用

在实际商业智能系统中，FalCon支持的模糊时间表达和行业术语直接对应企业级应用需求。蚂蚁集团等金融机构利用该基准优化对话式数据分析工具，使非技术人员能通过自然语言查询复杂业务指标。其ER图与显式外键标注显著降低了生产环境中模式误解导致的SQL生成错误率。

数据集最近研究