zerolink/zsql-postgres-dpo
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zerolink/zsql-postgres-dpo
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于训练机器学习模型将自然英语文本转换为Postgres方言SQL查询的数据集。该数据集包含200,000个DPO对,旨在支持快速开发文本到SQL生成模型。该数据集的独特之处在于其优化过程,其中每个数据对中的chosen字段包含经过规范化、优化的SQL查询,这些查询是从候选集中选择的,以最小化给定模式下的语法循环复杂度和渐近复杂度。数据集经过清理和过滤,以确保质量。
这是一个用于训练机器学习模型将自然英语文本转换为Postgres方言SQL查询的数据集。该数据集包含200,000个DPO对,旨在支持快速开发文本到SQL生成模型。该数据集的独特之处在于其优化过程,其中每个数据对中的chosen字段包含经过规范化、优化的SQL查询,这些查询是从候选集中选择的,以最小化给定模式下的语法循环复杂度和渐近复杂度。数据集经过清理和过滤,以确保质量。
提供机构:
zerolink
原始信息汇总
数据集概述
基本信息
- 语言创建者: 众包、专家生成
- 语言: 英语
- 许可证: 其他
- 大小类别: 100K<n<1M
- 任务类别: 文本到文本生成、文本生成
数据集信息
- 特征:
- schema: 数据库模式 (字符串)
- question: 自然语言问题 (字符串)
- rejected: 被拒绝的SQL查询 (字符串)
- chosen: 选定的SQL查询 (字符串)
- weight: 查询在奖励函数中的权重 (浮点数)
- 分割:
- 训练集: 233,393个样本, 246,559,437.43字节
- 测试集: 25,933个样本, 27,395,962.57字节
- 下载大小: 86,570,198字节
- 数据集大小: 273,955,400字节
配置
- 默认配置:
- 训练集: data/train-*
- 测试集: data/test-*
标签
- dpo
- text-to-sql
- sql
数据集描述
该数据集用于训练机器学习模型,将自然语言文本转换为Postgres方言的SQL查询。数据集包含200,000个DPO对,支持快速开发文本到SQL生成模型。每个数据对的“chosen”字段包含经过规范化、优化并从候选集中选出的SQL查询,以最小化给定模式的语法圈复杂度和渐近复杂度。
数据清洗和过滤标准
- 移除非英语查询
- 移除非有效SQL查询
- 移除非可执行的SQL查询
- 移除包含非拉丁字符的表的查询
- 移除不支持的数据库功能的查询
- 移除包含特定领域知识的过长查询
- 移除超出4096个令牌上下文窗口的查询
字段说明
- schema: 数据库模式
- question: 自然语言问题
- chosen: DPO选定的SQL查询
- rejected: DPO拒绝的SQL查询
- weight: 查询在奖励函数中的权重
来源
该数据集源自以下资源:
- datetime
- json
- math
- re
- rollup
- set
- string
- vector
- window
许可证
该数据集仅供学术和研究目的使用。请遵守指定的许可证条款和条件进行使用和分发。



