Archer

Name: Archer
Creator: 爱丁堡大学信息学院
Published: 2024-02-25 08:12:38
License: 暂无描述

arXiv2024-02-25 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.12554v2

下载链接

链接失效反馈

官方服务：

资源简介：

Archer是一个针对复杂推理的挑战性双语文本到SQL数据集，包含1042个英文问题和1042个中文问题，以及521个独特的SQL查询。该数据集覆盖20个英文数据库，涉及20个领域，特别强调算术、常识和假设推理。Archer旨在挑战和扩展文本到SQL模型的能力，使其能够处理更复杂和微妙的查询。数据集的创建过程包括数据库收集、问题标注、SQL标注、SQL审查、问题审查与改写、最终审查与处理等六个步骤，总耗时约300小时。Archer的应用领域主要集中在提升文本到SQL系统的复杂推理能力，解决现有数据集在复杂推理方面的不足。

Archer is a challenging bilingual text-to-SQL dataset for complex reasoning. It contains 1042 English questions, 1042 Chinese questions, and 521 unique SQL queries. The dataset covers 20 English databases spanning 20 domains, with particular emphasis on arithmetic, commonsense, and hypothetical reasoning. Archer aims to challenge and extend the capabilities of text-to-SQL models, enabling them to handle more complex and nuanced queries. The dataset creation process includes six steps: database collection, question annotation, SQL annotation, SQL review, question review and rewriting, and final review and processing, with a total time investment of approximately 300 hours. The primary application scenarios of Archer focus on improving the complex reasoning capabilities of text-to-SQL systems, addressing the shortcomings of existing datasets in complex reasoning.

提供机构：

爱丁堡大学信息学院

创建时间：

2024-02-20

搜集汇总

数据集介绍

构建方式

Archer数据集的构建历经多轮精细的人工标注与审核流程，总耗时约300工时。首先，从Spider的166个公开数据库中，依据至少包含3张表和20个列、以及至少6个时间或数值型列的标准，遴选出20个跨领域数据库。随后，两位具备SQL经验的博士生为每个数据库生成25至30个中英双语问题，确保每个问题融入算术推理，并至少包含5个假设推理问题及其对应的事实问题，同时鼓励融入常识推理与复杂SQL语法。之后，另两位SQL专家将问题转化为SQL查询，并由专业SQL审核员修正错误，经讨论达成共识。接着，母语者分别对英文和中文问题进行自然度评估与改写。最终，由资深标注员全面复核，并运行脚本确保所有SQL可执行。

特点

Archer数据集的核心特点在于其前所未有的复杂推理挑战。所有问题均要求算术推理，涵盖加减乘除运算；44.0%的问题涉及假设推理，要求模型基于反事实条件进行逻辑推演；51.4%的问题依赖常识推理，需要模型利用隐含的世界知识。相较于现有数据集，Archer的SQL查询平均长度高达79.71，每个查询平均涉及2.17张表、6.21个值槽，且嵌套层级更深，GROUP BY与ORDER BY子句使用频率显著更高。这些特性共同构成了对当前最先进模型（如GPT-4）的巨大挑战，其在Archer测试集上的执行准确率仅为6.73%。

使用方法

Archer数据集既可用于评估大语言模型的零样本推理能力，也可用于微调模型。对于大语言模型，推荐使用CT-3提示格式（包含CREATE TABLE命令及每张表的前三行示例数据），以提供更丰富的模式信息。对于微调模型，可将Archer训练集与Spider或CSpider训练集联合增强，以提升模型在复杂推理任务上的表现。数据集按数据库划分训练集（16个数据库）、开发集（2个）和测试集（2个），并提供了中英双语问题，便于评估模型在不同语言下的泛化能力。评估时采用执行准确率（EX）和有效SQL率（VA）作为指标。

背景与挑战

背景概述

在自然语言处理领域，文本到SQL任务旨在将用户提出的自然语言问题转化为可执行的SQL查询语句，从而实现对数据库的直观交互。近年来，基于大语言模型的方法在Spider等基准数据集上取得了显著进展，执行准确率已突破85%。然而，现有数据集普遍存在一个关键局限：它们有意排除了需要算术运算、常识推理或反事实假设等复杂推理能力的问题。为填补这一空白，爱丁堡大学信息学院的Danna Zheng、Mirella Lapata和Jeff Z. Pan于2024年联合推出了Archer数据集。该数据集包含1042个英文问题和1042个中文问题，对应521个独特的SQL查询，覆盖20个领域的20个数据库。Archer的核心研究问题在于：如何系统性地评估和提升文本到SQL模型在算术、常识和假设三种推理类型上的表现。其问世对相关领域产生了深远影响，因为即便是Spider排行榜上的顶尖模型，在Archer测试集上的执行准确率也仅有6.73%，揭示了当前模型在复杂推理方面的巨大不足。

当前挑战

Archer数据集所面临的挑战首先体现在其解决的领域问题上：现有文本到SQL模型普遍缺乏三种关键推理能力。算术推理要求模型执行加、减、乘、除等数学运算，而此前数据集极少包含此类问题；常识推理需要模型利用隐含的世界知识（如油耗计算公式）来推导正确的SQL逻辑；假设推理则更进一步，要求模型具备反事实思考能力，能在与数据库事实相矛盾的假设条件下生成查询。在数据集构建过程中，挑战同样严峻：团队从Spider的166个数据库中精心筛选出20个支持复杂推理的数据库，耗时约300小时进行人工标注。每道问题需同时满足算术、假设和常识推理要求，且SQL语句平均长度达79.71个token，包含6.21个值槽，嵌套层级和GROUP BY、ORDER BY等复杂语法使用频率远超其他数据集。此外，双语标注（中英文）和三轮专业审核进一步增加了构建的难度与成本。

常用场景

经典使用场景

在自然语言处理领域，文本到SQL任务旨在将自然语言问题转化为可执行的数据库查询语句。Archer数据集专为复杂推理场景设计，涵盖算术推理、常识推理与假设推理三种核心推理类型。其典型应用场景包括：当用户询问“哪款四缸汽车行驶300英里耗油最多”时，模型需利用常识知识（油耗=里程/燃油效率）进行数学计算，并生成包含多表连接与排序的SQL语句。此外，假设性问题如“若奔驰公司所有汽车均为四缸，则哪款四缸车耗油最多”要求模型理解反事实条件并调整查询逻辑。这些场景显著超越了传统数据集（如Spider）的复杂度，成为评估模型深层推理能力的标杆。

衍生相关工作

Archer数据集催生了多项前沿研究工作。研究者基于其推理分类（算术、常识、假设）开发了针对性增强方法，如通过显式注入常识知识提升模型在单位换算场景的准确率，或利用链式思维提示（COT）优化假设性问题的逻辑分解。此外，该数据集与Spider/CSpider的兼容性促进了数据增强策略的探索，T5-3B模型在增强训练集上执行准确率从0%跃升至4.81%，验证了跨数据集迁移学习的潜力。未来方向包括构建大规模自动生成模板以扩展数据集规模，并探索将外部知识库（如维基数据）融入文本到SQL生成流程，以攻克模型在知识密集型查询中的瓶颈。

数据集最近研究