aherntech/sparc

Name: aherntech/sparc
Creator: aherntech
Published: 2024-03-16 17:20:16
License: 暂无描述

Hugging Face2024-03-16 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/aherntech/sparc

下载链接

链接失效反馈

官方服务：

资源简介：

SParC是一个上下文依赖的多轮版本Spider任务1.0数据集，专门用于文本到SQL问题的聊天机器人测试集。该数据集包含4,298个连贯的问题序列（超过12,000个单独的问题，每个问题都标注了SQL查询），这些数据来源于用户与138个领域的200个复杂数据库的受控交互。SParC展示了复杂的上下文依赖、更大的语义多样性，并且由于其跨领域性质和在测试时未见过的数据库，需要泛化到未见过的领域。该数据集为未来的研究提供了显著的挑战。

提供机构：

aherntech

原始信息汇总

数据集概述：SParC

基本信息

许可证: CC-BY-4.0
任务类别: 文本到文本生成
语言: 英语
标签: 文本到SQL
数据集名称: SParC
数据集大小: 1K<n<10K

数据集描述

SParC是一个针对文本到SQL问题的聊天机器人测试集，它是Spider任务1.0的上下文依赖多轮版本。该数据集包含4,298个连贯的问题序列（超过12,000个带SQL查询的独立问题），来源于200个复杂数据库和138个领域的受控用户交互。

数据集特点

上下文依赖性: 数据集展示了复杂的上下文依赖关系。
语义多样性: 具有更大的语义多样性。
跨域性质: 由于其跨域特性及测试时未见的数据库，需要模型具有泛化到未见领域的能力。

性能指标

最佳模型精确匹配准确率: 20.2%（所有问题），不足10%（所有交互序列）。

引用信息

@misc{yu2019sparc, title={SParC: Cross-Domain Semantic Parsing in Context}, author={Tao Yu and Rui Zhang and Michihiro Yasunaga and Yi Chern Tan and Xi Victoria Lin and Suyi Li and Heyang Er and Irene Li and Bo Pang and Tao Chen and Emily Ji and Shreya Dixit and David Proctor and Sungrok Shim and Jonathan Kraft and Vincent Zhang and Caiming Xiong and Richard Socher and Dragomir Radev}, year={2019}, eprint={1906.02285}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，跨领域语义解析任务对模型理解上下文依赖关系提出了更高要求。SParC数据集的构建基于Spider任务1.0的扩展，通过模拟用户与数据库的交互过程，收集了涵盖138个不同领域的200个复杂数据库。研究团队设计了4,298组连贯的问题序列，包含超过12,000个独立问题，每个问题均标注了对应的SQL查询语句。数据采集过程采用受控的用户交互模式，确保问题序列具有真实的上下文依赖性，同时保持跨领域特性，测试阶段使用的数据库在训练集中完全未出现，以评估模型的泛化能力。

特点

作为文本到SQL转换任务的重要资源，SParC数据集展现出三大核心特征。其上下文依赖性体现在多轮对话中后续问题对前面问题的语义关联，要求模型具备对话历史的理解能力。数据集的语义多样性通过覆盖金融、教育、医疗等138个专业领域得以实现，每个领域对应独特的数据库模式和查询逻辑。跨领域特性则表现为训练集与测试集数据库完全分离的设计，迫使模型学习通用的语义解析模式而非记忆特定数据库结构，这为评估模型在真实场景中的适应能力提供了严谨的测试环境。

使用方法

研究者可利用该数据集推动上下文感知的语义解析技术发展。使用前需从HuggingFace平台加载数据集，其标准格式包含问题序列、数据库标识符和对应的SQL查询标注。典型应用流程包括：将多轮对话问题与数据库模式共同输入模型，训练模型生成符合上下文语义的SQL语句；评估时采用精确匹配准确率作为核心指标，同时可分析模型在跨领域场景下的泛化表现。数据集支持端到端文本到SQL模型的训练，也适用于研究对话状态跟踪、上下文建模等子任务，为构建智能数据库查询系统提供基准测试平台。

背景与挑战

背景概述

在自然语言处理领域，跨领域语义解析是连接人类语言与结构化数据的关键技术。SParC数据集由耶鲁大学LILY实验室于2019年发布，旨在解决多轮对话中上下文依赖的文本到SQL转换问题。该数据集基于Spider任务1.0扩展，涵盖了138个领域的200个复杂数据库，包含4,298个连贯的问题序列和超过12,000个标注的SQL查询。其核心研究在于推动对话式数据库交互系统的发展，通过模拟真实用户与数据库的交互过程，为模型提供了跨领域泛化能力的评估基准，对语义解析和对话系统研究产生了深远影响。

当前挑战

SParC数据集面临的挑战主要体现在两个方面：在领域问题上，它旨在解决多轮对话中上下文依赖的文本到SQL转换，这要求模型能够理解复杂的语义依赖关系，并在跨领域场景中实现泛化，现有模型在完整交互序列上的准确率不足10%，突显了语义多样性和上下文建模的难度；在构建过程中，数据集需要模拟真实用户与复杂数据库的交互，涉及大量连贯问题序列的标注，确保跨138个领域的数据一致性和逻辑连贯性，同时处理测试时未见数据库的泛化需求，这些因素共同增加了数据收集与验证的复杂性。

常用场景

经典使用场景

在自然语言处理领域，跨领域语义解析是连接人类语言与结构化数据库查询的关键桥梁。SParC数据集作为上下文依赖的多轮文本到SQL任务基准，其经典使用场景聚焦于模拟真实对话环境中用户与数据库的交互过程。研究者通过该数据集训练模型，以理解连续问题中的上下文依赖关系，将自然语言问题序列转化为可执行的SQL查询，从而评估模型在复杂、动态对话场景下的语义理解与逻辑推理能力。

衍生相关工作

SParC数据集的发布催生了一系列围绕上下文感知语义解析的经典研究工作。例如，后续研究提出了如IGSQL、EditSQL等模型，专门针对多轮SQL生成的上下文建模与查询修正进行优化。这些工作不仅在该数据集上取得了性能提升，更推动了如CoSQL等扩展数据集的构建，以及预训练语言模型在交互式语义解析任务中的适配与微调，形成了从基准评估到方法创新的良性研究循环。

数据集最近研究