BookSQL

Name: BookSQL
Creator: 印度理工学院坎普尔分校 (IIT Kanpur)
Published: 2024-06-12 12:22:27
License: 暂无描述

arXiv2024-06-12 更新2024-06-14 收录

下载链接：

https://github.com/Exploration-Lab/BookSQL

下载链接

链接失效反馈

官方服务：

资源简介：

BookSQL是由印度理工学院坎普尔分校和Intuit合作创建的大型Text-to-SQL数据集，专注于会计和金融领域。该数据集包含100,000个自然语言查询与相应的SQL语句对，基于100万条会计记录，反映了实际会计数据库的复杂性。数据集的创建过程涉及金融专家的深入参与，确保了数据的真实性和实用性。BookSQL的应用领域广泛，旨在帮助非技术人员通过自然语言查询高效地从会计数据库中提取信息，解决实际业务中的数据查询难题。

BookSQL is a large-scale Text-to-SQL dataset co-developed by the Indian Institute of Technology Kanpur and Intuit, focusing on the accounting and finance domain. This dataset includes 100,000 pairs of natural language queries and their corresponding SQL statements, built on 1 million accounting records and reflecting the complexity of real-world accounting databases. The development of BookSQL involved the in-depth participation of financial experts, ensuring the authenticity and practicality of the dataset. BookSQL has a wide range of application scenarios, aiming to help non-technical personnel efficiently extract information from accounting databases via natural language queries to solve data query challenges in actual business operations.

提供机构：

印度理工学院坎普尔分校 (IIT Kanpur)

创建时间：

2024-06-12

搜集汇总

数据集介绍

构建方式

在会计与金融领域，关系型数据库的普及使得非技术用户（如会计师）难以通过SQL直接查询数据。为填补这一空白，BookSQL数据集应运而生，旨在构建面向会计领域的自然语言查询接口。该数据集的构建过程严谨且专业：首先，与财务专家合作，基于真实企业账本结构提炼出包含主交易、客户、供应商、员工、产品服务、会计科目及支付方式在内的七张核心表，并确保其遵循复式记账等会计原则；随后，由专家梳理出183个典型自然语言问题，这些问题覆盖了实际业务中客户最常询问的场景；最后，通过模板化技术对这些问题进行扩展，生成10万对自然语言查询与SQL语句，并基于1百万条记录的多企业数据库进行验证，确保数据真实反映行业实践。

特点

BookSQL数据集在多个维度展现出显著特点。其规模庞大，包含10万对查询-SQL语句，是现有最大数据集WikiSQL的1.25倍，且涵盖27个不同行业的企业，保证了领域的多样性与泛化能力。在查询复杂性上，数据集囊括了17,529个ORDER BY、11,508个GROUP BY及4,456个嵌套查询，并首次引入多步问题（如比较产品月销量），以及丰富的时间过滤条件（如“上周”、“本财年”），大幅提升了挑战性。此外，所有数据均经过匿名化处理并经由财务专家双重校验，确保了隐私安全与业务真实性。现有顶尖模型（如RESDSQL）在该数据集上的精确匹配准确率仅达54.4%，凸显了其作为基准的严苛性。

使用方法

使用BookSQL数据集时，研究者可遵循标准流程进行模型训练与评估。数据集已按70%训练、10%验证、20%测试的比例划分，且测试集基于未见过的模板，以检验模型的泛化能力。评估指标包括精确匹配准确率、执行准确率、部分组件匹配F1、BLEU-4及ROUGE-L，全面衡量SQL生成质量。对于微调模型（如SEDE、UniSAr、RESDSQL），需基于T5或RoBERTa等架构进行端到端训练；而对于大语言模型（如GPT-4），推荐采用动态少样本提示技术，通过嵌入相似性从训练集中检索相关示例以增强上下文理解。数据集及代码已通过GitHub公开，便于复现实验与推动领域研究。

背景与挑战

背景概述

BookSQL数据集由印度理工学院坎普尔分校与Intuit公司于2024年联合创建，旨在填补自然语言接口数据库领域在会计与金融这一关键垂直行业的空白。尽管已有WikiSQL、Spider等大规模跨领域数据集，但这些资源在会计领域存在显著缺失，而该领域全球范围内拥有数以千万计的非技术用户，亟需能够通过自然语言查询复杂财务数据的系统。BookSQL由财务专家主导设计，包含10万条自然语言查询-SQL对及百万量级记录的会计数据库，覆盖27种不同行业的企业账簿，其查询类型涵盖聚合、嵌套子查询及复杂时间过滤，为评估和推动领域专用文本转SQL模型提供了高难度基准。该数据集的影响力体现在揭示了现有最先进模型（如RESDSQL、GPT-4）在该领域性能骤降的现象，从而指明了模型在领域泛化与复杂语义理解上的关键瓶颈。

当前挑战

BookSQL所面临的挑战主要体现在三个层面：首先，在领域问题层面，会计数据库要求模型理解复式记账原则、科目表层级结构及行业特定分类（如交易类型、借贷方向），现有模型常混淆credit与debit列、错误关联product_service与account字段，导致聚合或过滤逻辑出错。其次，在查询复杂性层面，数据集包含大量需多步推理的嵌套查询（如跨月产品销量对比）以及多样化时间过滤（如“本财年至今日”），而当前模型在生成嵌套SQL和精确处理日期区间时准确率极低（硬查询执行准确率仅15%-22%）。最后，在数据集构建过程中，需在匿名化真实企业数据的同时严格遵循会计恒等式（借贷平衡、交易金额一致性），并通过财务专家验证确保业务场景的真实性与模板的领域覆盖度，这对数据质量控制和隐私保护提出了严苛要求。

常用场景

经典使用场景

在财务与会计领域，BookSQL数据集为自然语言查询数据库提供了关键资源。该数据集包含10万条自然语言查询与SQL语句配对，以及覆盖27个行业的百万级记录数据库，专门针对会计场景设计。经典使用场景包括：用户通过自然语言询问“上季度约翰的总销售额是多少？”或“哪些产品本月销量低于上月？”等复杂财务问题，系统需将其转化为包含聚合、嵌套、时间过滤等操作的SQL查询。数据集模拟了真实会计软件中的双式记账、科目表层次结构和权责发生制等专业约束，使模型能处理实际业务中的多表关联查询。

实际应用

BookSQL的实际应用广泛渗透于企业财务软件、税务系统和商业智能工具中。例如，非技术用户（如会计师、小企业主）可通过自然语言直接查询“本月应付账款总额”或“过去六个月对供应商XYZ的付款记录”，无需掌握SQL语法。该数据集支持27种行业（如餐饮、医疗、房地产）的差异化科目表，系统可适配不同业务场景的查询习惯。此外，其时间过滤功能（如“本季度至今”“上一财年”）满足了税务申报和现金流分析的实时需求，显著降低了会计软件的使用门槛。

衍生相关工作

BookSQL衍生出多项经典工作，推动会计领域Text-to-SQL研究的深化。基于该数据集，研究者提出了动态少样本提示（Dynamic Few-shot Prompting）方法，通过向量检索选择相似训练示例，使GPT-4的执行准确率提升至67.2%。此外，多任务学习框架被引入以提升嵌套查询性能，例如联合优化SQL生成与日期格式分类目标。预训练模型（如GAP）通过列恢复和掩码预测任务增强对会计术语（如“应收账款”“折旧”）的理解。这些工作不仅改进了模型在BookSQL上的表现，也为其他垂直领域（如医疗、法律）的数据集构建提供了范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集