ScienceBenchmark

Name: ScienceBenchmark
Creator: 苏黎世应用科技大学
Published: 2023-12-05 23:05:58
License: 暂无描述

arXiv2023-12-05 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2306.04743v2

下载链接

链接失效反馈

官方服务：

资源简介：

ScienceBenchmark是一个专为评估自然语言到SQL系统而设计的新型复杂真实世界基准数据集，由苏黎世应用科技大学的研究团队开发。该数据集包含超过6000个NL/SQL对，用于帮助研究人员解决真实世界数据库的复杂挑战。数据集涵盖三个高度特定领域的数据库：研究政策制定、天体物理学和癌症研究。创建过程中，SQL专家和领域专家合作生成了高质量的NL/SQL对，并通过GPT-3生成了合成数据以扩展数据量。ScienceBenchmark旨在解决现有NL-to-SQL系统在处理复杂科学数据库时的性能问题，提供了一个挑战性的训练和测试平台，由领域专家精心验证。

ScienceBenchmark is a novel complex real-world benchmark dataset specifically designed for evaluating natural language-to-SQL systems, developed by the research team at Zurich University of Applied Sciences. This dataset contains over 6,000 NL/SQL pairs to help researchers address complex challenges posed by real-world databases. It covers three highly specialized domain-specific databases: research policy-making, astrophysics, and cancer research. During its creation, SQL experts and domain experts collaborated to generate high-quality NL/SQL pairs, and synthetic data generated via GPT-3 was used to expand the dataset size. ScienceBenchmark aims to address the performance issues of existing NL-to-SQL systems when dealing with complex scientific databases, providing a challenging training and testing platform that has been rigorously validated by domain experts.

提供机构：

苏黎世应用科技大学

创建时间：

2023-06-08

搜集汇总

数据集介绍

构建方式

在自然语言到SQL转换系统评估领域，现有基准如Spider主要包含结构简单的数据库，难以反映现实世界中复杂科学数据库的挑战。ScienceBenchmark的构建采用了一种创新的人机协同范式，旨在填补这一空白。该数据集首先由SQL专家与领域专家（涵盖科研政策制定、天体物理学和癌症研究）合作，为三个高度领域特定的真实数据库手工创建了高质量的初始NL/SQL对。为克服手工标注数据稀缺的瓶颈，研究团队设计了一个四阶段自动数据增强流水线：从种子查询中提取SQL模板，利用增强的数据库模式约束生成多样化的新SQL查询，再通过微调后的GPT-3大语言模型将SQL反向翻译为自然语言问题，最后通过基于SentenceBERT的判别模型筛选出语义最匹配的自然语言表述。这种方法有效结合了专家知识的精确性与合成数据的规模优势。

使用方法

ScienceBenchmark为评估和推进自然语言到SQL转换技术提供了严谨的测试平台。研究人员可利用其提供的训练集（包含手工种子数据和自动生成的合成数据）与独立的开发测试集，系统评估不同NL-to-SQL模型在复杂科学领域的泛化能力与鲁棒性。数据集支持多种实验设置，包括零样本学习（仅在Spider上训练）、小样本学习（加入少量领域种子数据）以及数据增强学习（加入合成数据），便于量化不同训练策略对性能提升的贡献。评估时推荐采用与Spider一致的执行准确率作为核心指标，即比较模型预测的SQL查询结果与标准答案是否完全一致。该基准不仅适用于微调基于Transformer的专用模型（如T5、SmBoP），也可用于评估大语言模型在少样本提示下的性能，为攻克领域适应、模式链接和复杂语义理解等核心难题提供了明确的研究方向。

背景与挑战

背景概述

在自然语言处理与数据库交互领域，NL-to-SQL系统的评估长期依赖于通用基准数据集，如Spider，其数据库结构相对简单，难以反映现实世界复杂科学数据库的挑战。为弥补这一空白，苏黎世应用科学大学与雅典研究中心的科研团队于2023年共同创建了ScienceBenchmark数据集。该数据集聚焦于研究政策制定、天体物理学与癌症研究三个高度专业化的科学领域，旨在为NL-to-SQL系统在真实复杂场景下的性能提供严谨评估框架。其核心研究问题在于解决现有系统在面临领域特定知识、复杂数据库模式及专业查询语句时的泛化能力不足，从而推动数据民主化在科学研究中的深入应用。

当前挑战

ScienceBenchmark所应对的核心领域挑战在于，如何使NL-to-SQL系统能够准确理解并转换涉及高度专业化科学术语与复杂逻辑的自然语言查询。具体而言，挑战包括处理未见过的专业领域知识、解析结构复杂且命名隐晦的数据库模式，以及生成包含数学运算和多表联接的精密SQL查询。在数据集构建过程中，主要挑战体现为高质量训练数据的稀缺性。由于领域专家与SQL专家协同标注成本极高，团队创新性地采用了基于GPT-3的自动数据增强管道，通过少量人工种子数据生成大规模合成数据，并需确保生成的数据在语义上准确且符合领域逻辑，这一过程涉及复杂的模板提取、语义约束设计以及生成结果的质量验证。

常用场景

经典使用场景

在自然语言到SQL转换系统的评估领域，ScienceBenchmark作为首个面向复杂现实世界科学数据库的基准测试集，其经典使用场景聚焦于评估和比较各类NL-to-SQL模型在高度专业化领域的性能表现。该数据集通过整合天体物理学、癌症研究和科研政策制定三个领域的真实数据库，构建了包含数千个高质量自然语言与SQL查询对的测试环境。研究者通常利用该基准来系统性地检验模型在面临陌生领域知识、复杂数据库模式以及包含数学运算的精密查询时的泛化能力与鲁棒性，从而推动面向科学数据探索的智能查询接口的发展。

解决学术问题

ScienceBenchmark有效解决了自然语言处理与数据库交叉研究中的若干关键学术问题。它首要应对的是现有基准（如Spider）与现实应用之间的鸿沟问题，即简单、通用领域的模型在复杂、专业科学数据库上表现急剧下降的挑战。该数据集通过引入高度领域特定的词汇、晦涩的数据库模式以及需要数值计算和跨表连接的复杂查询，为研究社区提供了评估模型领域适应性和小样本学习能力的标准平台。其意义在于将NL-to-SQL的研究焦点从追求通用基准上的高准确率，转向解决真实科学数据访问中的实际困难，促进了面向数据民主化的技术向实用化迈进。

实际应用

在实际应用层面，ScienceBenchmark直接服务于构建面向专业科研人员的智能数据查询系统。例如，在天体物理学研究中，学者无需掌握复杂的SQL语法，即可通过自然语言询问如‘查找所有红移大于0.5的星暴星系’等问题，系统能自动生成可执行的SQL查询，从Sloan Digital Sky Survey等海量观测数据库中检索信息。在癌症研究领域，它有助于生物医学专家快速探索OncoMX等整合型生物标志物数据库，通过自然语言交互挖掘基因表达与癌症类型之间的关联。这些应用显著降低了科学数据访问的门槛，提升了科研探索的效率和广度。

数据集最近研究