SynSQL-2.5M
收藏Hugging Face2025-03-17 更新2025-03-18 收录
下载链接:
https://huggingface.co/datasets/seeklhy/SynSQL-2.5M
下载链接
链接失效反馈官方服务:
资源简介:
SynSQL-2.5M是一个包含超过250万个多样化和高质量样本的跨领域Text-to-SQL数据集,覆盖了超过16000个来自现实场景的合成数据库。该数据集包含从简单到高度复杂的SQL查询,覆盖了多种自然语言风格,并为所有数据样本提供了Chain-of-thought解决方案。
创建时间:
2025-03-06
搜集汇总
数据集介绍

构建方式
SynSQL-2.5M数据集通过开源的大型语言模型(LLMs)生成,涵盖了超过250万条多样且高质量的数据样本。这些样本来自16,000多个不同领域的数据库,每个样本包含数据库、问题、SQL查询以及链式思维解决方案。数据集的构建过程充分考虑了SQL查询的复杂性,从简单的单表查询到复杂的多表连接、函数和公共表表达式均有涉及。
特点
SynSQL-2.5M数据集以其规模大、多样性高而著称,涵盖了从简单到高度复杂的SQL查询,并提供了链式思维解决方案。数据集中的自然语言问题风格多样,包括正式、口语化、命令式、疑问式、描述性、简洁、模糊、隐喻性和对话式等多种形式。此外,数据集覆盖了16,583个合成数据库,确保了广泛的领域覆盖和实际应用场景的多样性。
使用方法
SynSQL-2.5M数据集可用于训练和评估文本到SQL的模型,特别是在跨领域场景下的表现。研究人员可以通过HuggingFace或Modelscope平台下载数据集,并结合OmniSQL模型进行微调。OmniSQL模型提供了7B、14B和32B三种规模,适用于不同计算资源的需求。用户还可以根据自身需求,利用数据集提供的框架合成新的数据样本,以进一步优化模型的性能。
背景与挑战
背景概述
SynSQL-2.5M数据集是首个百万级别的跨领域文本到SQL转换数据集,由RUCKBReasoning团队于2025年发布。该数据集包含超过250万条多样化的高质量数据样本,涵盖了来自16,000多个数据库的复杂查询场景。其核心研究问题在于如何通过大规模合成数据提升文本到SQL模型的泛化能力和准确性。SynSQL-2.5M的发布标志着文本到SQL领域的一个重要里程碑,为研究人员和从业者提供了一个强大的工具,以推动自然语言处理与数据库查询技术的深度融合。
当前挑战
SynSQL-2.5M数据集在解决文本到SQL转换问题时面临多重挑战。首先,尽管数据集规模庞大且多样化,但其仅支持SQLite数据库引擎,限制了其在多语言和多SQL方言场景中的应用。其次,数据集的构建依赖于开源大语言模型生成合成数据,虽然通过链式思维(CoT)解决方案提升了数据质量,但仍需进一步验证其在实际应用中的鲁棒性。此外,如何将SynSQL-2.5M与其他高质量人工标注数据集(如Spider和BIRD)有效结合,以优化模型性能,也是一个亟待解决的问题。
常用场景
经典使用场景
SynSQL-2.5M数据集在自然语言处理领域中的经典使用场景主要集中在其作为大规模跨领域文本到SQL转换任务的基准数据集。该数据集通过提供超过250万条多样化的文本到SQL样本,覆盖了从简单查询到复杂多表连接的广泛SQL复杂度,为研究人员提供了一个理想的实验平台,用于开发和评估文本到SQL模型的性能。
实际应用
在实际应用中,SynSQL-2.5M数据集被广泛用于开发智能数据库查询系统,这些系统能够理解用户的自然语言查询并自动生成相应的SQL语句。这种技术在企业数据分析、智能客服和自动化报告生成等领域具有重要应用价值,极大地提高了数据查询的效率和准确性。
衍生相关工作
基于SynSQL-2.5M数据集,研究者们开发了OmniSQL系列模型,这些模型在文本到SQL任务中表现出色,并成为该领域的经典工作。OmniSQL模型通过集成Spider和BIRD等高质量人工标注数据集进行微调,进一步提升了模型的泛化能力和查询准确性,为后续研究提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



