SEDE
收藏arXiv2021-06-09 更新2024-06-21 收录
下载链接:
https://github.com/hirupert/sede
下载链接
链接失效反馈官方服务:
资源简介:
SEDE数据集是由哥伦比亚大学创建的,包含12,023对自然语言和SQL查询的配对,这些数据是从Stack Exchange网站的真实用户交互中收集的。数据集内容丰富,涵盖了多种实际挑战,如参数使用、日期操作和复杂的子查询等。创建过程中,研究人员通过规则过滤和人工验证确保数据质量。SEDE数据集主要用于评估和改进Text-to-SQL模型在真实世界环境中的性能,特别是在处理自然语言查询和复杂SQL结构时的能力。
The SEDE dataset was developed by Columbia University, consisting of 12,023 paired natural language and SQL queries collected from real user interactions across the Stack Exchange website. The dataset encompasses a diverse set of practical challenges, such as parameter utilization, date manipulation, complex subqueries and more. During its curation, researchers employed rule-based filtering and manual verification to ensure data quality. The SEDE dataset is primarily used to evaluate and improve the performance of Text-to-SQL models in real-world scenarios, particularly their ability to handle natural language queries and complex SQL structures.
提供机构:
哥伦比亚大学
创建时间:
2021-06-09
搜集汇总
数据集介绍

构建方式
在自然语言处理与数据库交互的交叉领域中,语义解析任务长期受限于人工构建的数据集,这些数据集往往缺乏真实世界中用户提问的丰富性与多样性。为突破这一局限,SEDE数据集应运而生,它源自Stack Exchange数据探索器,收集了用户在真实交互场景中撰写的12,023对自然语言描述与SQL查询。数据构建过程首先从超过160万条原始日志中,通过基于规则的过滤机制剔除重复、不完整或描述与查询不匹配的样本,例如移除描述中包含数字但查询中未出现的条目。随后,对验证集与测试集进行人工校验,对其中690个样本进行最小化修正(如调整文本值以对齐查询),最终保留1,714个经过验证的高质量样本,确保数据集的准确性与可靠性。
特点
SEDE数据集的核心特点在于其天然涌现的真实性与复杂性,这体现在多个维度上。首先,它涵盖了87%的欠指定或隐含假设样本,即自然语言描述未明确提及SQL中的某些子句(如SELECT或WHERE),这要求模型具备推断用户意图的能力。其次,40%的查询包含参数(如##UserId:int##),允许用户在运行时填充未明确的值,体现了真实查询中的灵活性与可复用性。此外,数据集还引入了窗口函数(8%)、日期运算(15%)、数值计算与文本操作(35%)、DECLARE/WITH语句(11%)以及CASE子句(10%),这些特性在ATIS和Spider等传统数据集中几乎完全缺失。与现有数据集相比,SEDE拥有超过10,000个唯一的SQL模板,其查询3-gram多样性是Spider的6倍,展现了无与伦比的语法丰富度。
使用方法
SEDE数据集的使用方法旨在模拟真实世界的Text-to-SQL评估场景。用户可将其作为单领域语义解析基准,训练序列到序列模型(如T5)将自然语言标题映射为SQL查询。由于所有查询共享一个包含29张表和211列的Stack Exchange数据库架构,模型在训练时需学习从用户描述中提取隐含的列名与操作。评估时,建议采用本文提出的PCM-F1(部分组件匹配F1)指标,该指标通过解析查询树并比较SELECT、WHERE等子句的子树元素来提供更宽松的评分,以应对欠指定问题导致的执行结果歧义。实验表明,T5-Large在SEDE上的PCM-F1仅达50.6%,远低于在Spider上的86.3%,凸显了该数据集对现有模型的挑战性。
背景与挑战
背景概述
语义解析领域长期依赖由人工标注或众包方式构建的学术数据集,如ATIS、GeoQuery和Spider等,这些数据集中的自然语言查询与SQL语句由标注人员刻意生成,缺乏真实用户交互场景下的多样性与复杂性。为弥补这一不足,Moshe Hazoom等人于2021年提出了SEDE数据集,该数据集源自Stack Exchange Data Explorer平台,收录了12,023对由真实用户在自然交互中撰写的自然语言标题、描述及对应的T-SQL查询。SEDE的核心研究问题在于探索真实世界语义解析的独特挑战,其发布推动了Text-to-SQL模型从学术基准向实际应用场景的迁移,对提升模型在复杂、未明确指定条件下的泛化能力具有重要影响力。
当前挑战
SEDE数据集所解决的领域挑战在于真实世界语义解析中的自然语言不明确性与查询多样性。具体挑战包括:1) 查询语句的欠指定性(Under-specification),如用户仅描述“top users”却未明确排序依据,导致同一查询可对应多种SQL实现;2) 查询中参数化表达(Parameters)的广泛使用,需模型理解并生成可复用的输入参数;3) 日期运算、窗口函数、数值计算与文本操作等高级SQL语法频繁出现,远超现有学术数据集覆盖范围。在构建过程中,原始日志包含超过160万条记录,存在大量重复、不完整或标题与查询不匹配的数据,需通过基于规则的过滤与人工校验(最终仅保留1,714条验证集样本),以剔除噪声并确保查询与自然语言描述的对齐准确性。
常用场景
经典使用场景
在自然语言处理与数据库交互的交叉领域中,SEDE数据集以其源自真实用户行为的独特性质,成为评估文本到SQL模型在现实场景下泛化能力的重要基准。与传统学术数据集不同,SEDE收录了来自Stack Exchange数据探索器的12,023组自然语言描述与SQL查询对,这些查询由真实用户为解决实际数据需求而编写,蕴含着丰富的语言多样性与查询复杂性。该数据集最经典的使用场景在于检验模型对非规范化、语义模糊及隐含假设的应对能力,例如用户可能仅写“top users”而未明确排序依据,或使用参数如##UserId:int##来填补未指定的条件,这些挑战鲜见于其他数据集。
解决学术问题
SEDE数据集直击当前语义解析研究中的核心痛点:现有数据集如Spider或ATIS多由众包工人人工构造,导致查询与自然语言间存在过度对齐、表述过于明确且范围受限等问题。通过引入真实世界中常见的欠指定性(under-specification)、参数化查询、窗口函数、日期运算、数值与文本操作、DECLARE/WITH语句及CASE子句等七类挑战,SEDE揭示了强基线模型(如T5-Large)在现实设定下的性能断崖——其在Spider上达到63.2%的精确匹配率,而在SEDE上仅获4.1%的PCM-EM分数。这一巨大差距促使学界重新审视模型对复杂、多样且非理想化查询的鲁棒性,推动了评估指标从严格精确匹配向部分组件匹配(PCM-F1)的演进,从而更公允地度量模型在真实应用中的表现。
衍生相关工作
SEDE数据集的发布催生了一系列富有影响力的衍生工作。在模型架构方面,研究者基于其挑战特性,改进了序列到序列模型(如T5)的编码策略,探索将数据库模式(schema)显式拼接至输入以增强表列关联感知,并针对欠指定问题引入交互式解析框架,允许模型通过追问澄清用户意图。在评估方法论上,PCM-F1指标的提出激励了后续研究开发更精细的语义匹配技术,例如基于执行结果差异的蒸馏测试套件(如Spider的Distilled Test Suites),以缓解假阳性与假阴性问题。此外,SEDE还推动了参数化查询生成与日期运算等专项任务的独立研究,相关成果已应用于多领域Text-to-SQL系统的鲁棒性增强,形成从数据构建、模型训练到评测优化的完整闭环。
以上内容由遇见数据集搜集并总结生成



