five

zerolink/zsql-postgres-dpo

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zerolink/zsql-postgres-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于训练机器学习模型将自然英语文本转换为Postgres方言SQL查询的数据集。该数据集包含200,000个DPO对,旨在支持快速开发文本到SQL生成模型。该数据集的独特之处在于其优化过程,其中每个数据对中的chosen字段包含经过规范化、优化的SQL查询,这些查询是从候选集中选择的,以最小化给定模式下的语法循环复杂度和渐近复杂度。数据集经过清理和过滤,以确保质量。

这是一个用于训练机器学习模型将自然英语文本转换为Postgres方言SQL查询的数据集。该数据集包含200,000个DPO对,旨在支持快速开发文本到SQL生成模型。该数据集的独特之处在于其优化过程,其中每个数据对中的chosen字段包含经过规范化、优化的SQL查询,这些查询是从候选集中选择的,以最小化给定模式下的语法循环复杂度和渐近复杂度。数据集经过清理和过滤,以确保质量。
提供机构:
zerolink
原始信息汇总

数据集概述

基本信息

  • 语言创建者: 众包、专家生成
  • 语言: 英语
  • 许可证: 其他
  • 大小类别: 100K<n<1M
  • 任务类别: 文本到文本生成、文本生成

数据集信息

  • 特征:
    • schema: 数据库模式 (字符串)
    • question: 自然语言问题 (字符串)
    • rejected: 被拒绝的SQL查询 (字符串)
    • chosen: 选定的SQL查询 (字符串)
    • weight: 查询在奖励函数中的权重 (浮点数)
  • 分割:
    • 训练集: 233,393个样本, 246,559,437.43字节
    • 测试集: 25,933个样本, 27,395,962.57字节
  • 下载大小: 86,570,198字节
  • 数据集大小: 273,955,400字节

配置

  • 默认配置:
    • 训练集: data/train-*
    • 测试集: data/test-*

标签

  • dpo
  • text-to-sql
  • sql

数据集描述

该数据集用于训练机器学习模型,将自然语言文本转换为Postgres方言的SQL查询。数据集包含200,000个DPO对,支持快速开发文本到SQL生成模型。每个数据对的“chosen”字段包含经过规范化、优化并从候选集中选出的SQL查询,以最小化给定模式的语法圈复杂度和渐近复杂度。

数据清洗和过滤标准

  • 移除非英语查询
  • 移除非有效SQL查询
  • 移除非可执行的SQL查询
  • 移除包含非拉丁字符的表的查询
  • 移除不支持的数据库功能的查询
  • 移除包含特定领域知识的过长查询
  • 移除超出4096个令牌上下文窗口的查询

字段说明

  • schema: 数据库模式
  • question: 自然语言问题
  • chosen: DPO选定的SQL查询
  • rejected: DPO拒绝的SQL查询
  • weight: 查询在奖励函数中的权重

来源

该数据集源自以下资源:

  • datetime
  • json
  • math
  • re
  • rollup
  • set
  • string
  • vector
  • window

许可证

该数据集仅供学术和研究目的使用。请遵守指定的许可证条款和条件进行使用和分发。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作