SIGMA

Name: SIGMA
Creator: 美国中央佛罗里达大学计算机科学系
Published: 2025-04-06 07:30:20
License: 暂无描述

arXiv2025-04-06 更新2025-04-09 收录

下载链接：

https://github.com/sasmohaimeed/SIGMA

下载链接

链接失效反馈

官方服务：

资源简介：

SIGMA数据集是由美国中央佛罗里达大学计算机科学系开发的，包含6000个自然语言问题及其对应的Python代码标签，跨越160个数据库。其中一半的问题涉及查询类型，另一半是进行统计分析的查询。该数据集的Python代码标签涵盖了4种查询类型和40种统计分析模式。数据集由九位拥有统计学或相关领域学位的人编写的3000个统计问题，以及由三位计算机科学研究生编写的2000个查询问题和来自Spider数据集的1000个问题组成。SIGMA数据集旨在推动文本到代码的语义解析研究，特别是在统计分析方面。

The SIGMA dataset was developed by the Department of Computer Science at the University of Central Florida, USA. It contains 6,000 natural language questions paired with their corresponding Python code tags, spanning 160 databases. Half of these questions focus on query-related tasks, while the other half are queries for statistical analysis. The Python code tags in this dataset cover 4 query types and 40 statistical analysis patterns. The dataset is composed of 3,000 statistical questions written by nine individuals with degrees in statistics or related fields, 2,000 query questions drafted by three computer science graduate students, and 1,000 questions sourced from the Spider dataset. The SIGMA dataset aims to advance research in semantic parsing for text-to-code, particularly in the context of statistical analysis.

提供机构：

美国中央佛罗里达大学计算机科学系

创建时间：

2025-04-06

搜集汇总

数据集介绍

构建方式

在语义解析领域，SIGMA数据集通过精心设计的构建流程，为文本到代码的转换任务提供了高质量的资源支持。该数据集包含6000个自然语言问题及其对应的Python代码标签，覆盖160个不同领域的数据库。问题由统计学背景的专家和计算机科学研究生共同编写，确保了问题的多样性和专业性。其中，3000个问题涉及统计分析方法，另外3000个问题则聚焦于数据库查询。数据集的构建过程中，特别注重问题的清晰性和同义词的使用，以避免歧义并增强模型的语义理解能力。

特点

SIGMA数据集以其广泛的覆盖范围和多样化的任务类型脱颖而出。它不仅包含传统的数据库查询任务（如SELECT、WHERE等SQL子句），还涵盖了40种统计分析方法，如分布分析、绘图技术和数值计算。数据集的问题设计充分考虑了同义词的使用，以测试模型对语义的理解能力。此外，数据集的跨领域特性使得模型能够在不同领域的数据库中泛化性能，避免了过拟合问题。数据集还配备了内置的Python执行器，支持所有44种模式的代码执行，进一步提升了其实用性。

使用方法

SIGMA数据集的使用方法灵活多样，适用于多种语义解析和代码生成任务。用户可以通过输入自然语言问题和数据库模式，生成对应的Python代码片段。数据集内置的Python执行器可直接运行生成的代码，验证其正确性。评估时，可采用结构匹配、执行准确率和同义词准确率等多种指标，全面衡量模型性能。数据集的跨领域特性使其特别适合用于测试模型在未知领域的泛化能力。此外，数据集的多模式任务设计（如同时预测多个统计模式）也为模型鲁棒性测试提供了丰富场景。

背景与挑战

背景概述

SIGMA数据集由中佛罗里达大学计算机科学系的Saleh Almohaimeed等研究人员于2023年推出，旨在推动语义解析领域的研究发展。该数据集专注于文本到代码的语义解析任务，特别强调统计分析功能，弥补了传统Text-to-SQL任务在统计分析能力上的不足。SIGMA包含6000个自然语言问题及其对应的Python代码标签，覆盖160个数据库和44种模式（包括40种统计分析模式和4种SQL子句模式）。该数据集的创新性在于将自然语言问题转化为可执行Python代码，从而支持更复杂的数据分析和统计操作，为自然语言处理与数据科学交叉领域的研究提供了重要资源。

当前挑战

SIGMA数据集面临的核心挑战主要体现在两个方面：领域问题方面，传统语义解析系统难以处理复杂的统计分析需求，现有Text-to-SQL系统通常仅支持基本的统计函数（如求和、平均值和计数），而SIGMA需要支持40种不同的统计分析模式，这对模型的语义理解和代码生成能力提出了更高要求；构建过程方面，数据集创建者需要确保6000个问题的多样性和复杂性，同时处理跨领域数据库的语义差异，以及自然语言表达中的同义词问题（约20%的问题包含同义词），这对数据标注的一致性和质量控制提出了严峻挑战。此外，将自然语言准确映射到包含多个统计操作的Python代码片段，需要平衡语言表达的灵活性和代码生成的精确性。

常用场景

经典使用场景

SIGMA数据集在自然语言处理领域中的经典使用场景主要集中在文本到代码的语义解析任务上。通过将自然语言问题转换为可执行的Python代码，该数据集特别适用于需要从数据库中检索信息并进行统计分析的应用。例如，研究人员可以利用SIGMA来训练模型，使其能够理解诸如“计算员工收入的均值”或“展示产品价格的直方图”等复杂查询，并生成相应的Python代码。

解决学术问题

SIGMA数据集解决了语义解析领域中的一个关键学术问题，即如何将自然语言查询转换为能够执行统计分析的代码。传统的数据集如Text-to-SQL仅支持有限的统计功能（如Sum、Average和Count），而SIGMA通过引入40种统计模式（如正态分布、相关矩阵等）和4种查询类型，显著扩展了语义解析的能力。这不仅提升了模型在复杂查询上的表现，还为跨领域的数据分析提供了新的研究视角。

衍生相关工作

SIGMA数据集衍生了一系列相关研究工作，特别是在结合预训练语言模型（如ELECTRA、BERT）和语义解析模型（如LGESQL、SmBoP）方面。例如，研究人员通过改进LGESQL模型的结构匹配能力，使其在SIGMA上达到了83.37%的准确率。此外，基于SIGMA的多模式统计分析和跨领域查询特性，后续研究还探索了如何进一步提升模型在复杂查询和同义词处理上的鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集