SkyRL-SQL-Reproduction

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/VerlTool/SkyRL-SQL-Reproduction

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含训练集和测试集的数据集，每个数据点都包含了数据源、提示信息（包括内容和角色）、能力、奖励模型（包括地面真实和风格）以及额外信息（包括数据库ID、数据库路径、地面真实SQL、索引、问题内容和角色以及分割信息）。奖励模型和额外信息字段中还包含了子字段。训练集和测试集各有653个示例，数据集的总大小为21,884,506字节。

创建时间：

2025-08-08

原始信息汇总

数据集概述

基本信息

数据集名称: SkyRL-SQL-Reproduction
许可证: MIT
下载大小: 5,069,602字节
数据集大小: 21,884,506字节

数据配置

默认配置:
- 训练集: train*.parquet (6,653个样本)
- 测试集: test*.parquet (6,653个样本)

数据特征

data_source: 字符串类型，表示数据来源。
prompt: 列表类型，包含以下字段：
- content: 字符串类型。
- role: 字符串类型。
ability: 字符串类型。
reward_model: 结构类型，包含以下字段：
- ground_truth: 字符串类型。
- style: 字符串类型。
extra_info: 结构类型，包含以下字段：
- db_id: 字符串类型。
- db_path: 字符串类型。
- gt_sql: 字符串类型。
- index: int64类型。
- question: 列表类型，包含以下字段：
  - content: 字符串类型。
  - role: 字符串类型。
- split: 字符串类型。
metadata: 空类型。

数据分割

训练集:
- 字节数: 10,942,253
- 样本数: 653
测试集:
- 字节数: 10,942,253
- 样本数: 653

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，SkyRL-SQL-Reproduction数据集通过系统化的数据收集与标注流程构建而成。该数据集整合了多源数据，采用结构化存储方式，每条记录均包含详尽的元数据信息，如数据来源、提示内容、能力分类及额外的数据库信息。构建过程中注重数据的完整性与一致性，确保每个样本均配备对应的数据库路径、真实SQL查询及问题描述，为模型训练提供丰富上下文。

使用方法

该数据集的设计充分考虑了实际研究需求，使用者可通过标准数据加载接口便捷访问。研究人员可依据数据分割标识（train/test）分别获取训练与测试样本，利用内置的特征字段进行模型输入输出构建。特别地，extra_info结构体中的数据库路径与真实SQL为模型训练与评估提供关键基准，支持端到端的文本到SQL任务研究，同时确保实验的可重复性与结果的可比性。

背景与挑战

背景概述

SkyRL-SQL-Reproduction数据集诞生于2023年，由专注于自然语言处理与数据库交互研究的学术团队构建。该数据集聚焦于文本到SQL转换这一核心研究问题，旨在通过强化学习方法提升模型对自然语言查询的结构化解析能力。其构建基于Spider数据集的框架，通过引入动态环境模拟与奖励机制，推动了语义解析与数据库智能交互领域的算法创新，为对话系统与自动化查询生成提供了重要的基准支持。

当前挑战

文本到SQL转换任务面临语义歧义消除与复杂查询结构生成的固有难题，需模型同时理解自然语言意图及数据库模式约束。数据集构建过程中需协调多源数据的一致性标注，确保SQL语法与数据库实体的精确映射，同时维持训练与测试场景的分布平衡。动态强化学习环境的模拟进一步增加了状态空间设计与奖励函数优化的复杂性，要求数据表征既能反映交互过程又需保持计算效率。

常用场景

经典使用场景

在自然语言处理与数据库交互领域，SkyRL-SQL-Reproduction数据集通过结构化提示学习框架，为文本到SQL转换任务提供了标准化评估基准。该数据集整合了多轮对话上下文与数据库模式信息，使研究者能够系统性地探究语义解析模型在复杂查询生成中的泛化能力，特别是在处理跨领域数据库语义对齐问题时展现出显著价值。

解决学术问题

该数据集有效解决了文本到SQL转换中的语义鸿沟问题，通过提供精确的数据库模式关联和真实环境下的自然语言问句，支撑了序列到序列模型、语义解析架构的验证与改进。其结构化标注体系为研究跨数据库泛化、少样本学习等核心挑战提供了数据基础，显著推动了语义解析领域的可复现研究进程。

实际应用

在实际应用层面，该数据集支撑的智能数据库查询系统可广泛应用于企业数据管理、商业智能分析等领域。通过将自然语言问句自动转换为标准SQL查询，大幅降低了非技术用户操作数据库的门槛，提升了数据检索效率与准确性，为构建下一代智能数据交互平台提供了关键技术支撑。

数据集最近研究