AnnotatedTables

Name: AnnotatedTables
Creator: 爱荷华州立大学计算机科学系
Published: 2024-06-24 14:44:14
License: 暂无描述

arXiv2024-06-24 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.16349v1

下载链接

链接失效反馈

官方服务：

资源简介：

AnnotatedTables是由爱荷华州立大学计算机科学系创建的大型表格数据集，包含32,119个数据库，总计405,616个有效的SQL程序。该数据集利用大型语言模型（LLMs）自动生成注释，解决了传统人工注释的扩展瓶颈。数据集的构建始于跨领域的实际数据科学应用中的多样化表格数据，通过精心设计的提示，指导LLMs使用零样本学习合成SQL代码。AnnotatedTables不仅支持查询执行，还适用于各种研究目标，如SQL到Rel程序的翻译和表格分类模型的评估。此数据集展示了LLMs在自动化大量多样化表格数据注释方面的潜力，适用于解决数据库管理、查询优化等领域的实际问题。

AnnotatedTables is a large-scale tabular dataset created by the Department of Computer Science at Iowa State University, which encompasses 32,119 databases and a total of 405,616 valid SQL programs. This dataset utilizes Large Language Models (LLMs) to automatically generate annotations, addressing the scalability bottleneck inherent in traditional manual annotation workflows. The construction of AnnotatedTables begins with diverse tabular data sourced from real-world data science applications across multiple domains. Through carefully crafted prompts, LLMs are guided to synthesize SQL code via zero-shot learning. AnnotatedTables not only supports query execution but also caters to a wide range of research goals, including SQL-to-Rel program translation and the evaluation of tabular classification models. This dataset showcases the potential of LLMs in automating annotations for large volumes of diverse tabular data, and is applicable to solving practical problems in fields such as database management and query optimization.

提供机构：

爱荷华州立大学计算机科学系

创建时间：

2024-06-24

搜集汇总

数据集介绍

构建方式

AnnotatedTables 数据集的构建始于收集多样的跨领域表格数据，这些数据来自现实世界的数科实践。为使 LLM 理解和注释表格数据，我们为每个数据库设计了一个文本描述，包括基本模式和一些示例行。随后，我们利用零样本学习指导 LLM 合成 SQL 代码，这是一种快速且成本效益高的方法，无需昂贵的人工劳动即可创建丰富的数据集。为确保 LLM 生成的 SQL 代码的质量，我们通过在表格数据上执行它们来验证其有效性，并报告生成的 SQL 查询的有效性。

特点

AnnotatedTables 数据集具有以下特点：1）它是迄今为止最大的包含表格数据并支持查询执行的 SQL 数据集；2）LLM 生成的 SQL 代码具有类似人类的意图和用法；3）LLM 可以编写具有多种 SQL 组件的复杂程序，尽管某些简单的 SQL 语句出现频率较高，但它们可能不如更复杂的 SQL 程序有价值；4）一些 LLM 生成的 SQL 程序可能无效，需要仔细检查。

使用方法

AnnotatedTables 数据集的使用方法包括：1）对 LLM 的能力进行学习新编程语言的上下文研究；2）对 TabPFN 在各种真实世界数据表上的性能进行扩展评估。LLM 注释可以灵活地适应数据集以解决特定的研究问题，例如 SQL 到 Rel 的翻译和表格分类。

背景与挑战

背景概述

在现实世界应用中，表格数据无处不在，并且在网络上也非常丰富。然而，传统的表格数据标注需要大量的人工劳动，这在可扩展性方面构成了重大瓶颈。为此，本文介绍了一种利用大型语言模型（LLM）理解和标注表格数据的方法。我们的方法可以成功地标注大量的表格数据，并且可以根据特定的研究目标灵活地生成各种类型的标注。例如，我们通过SQL标注和输入-目标列标注来展示其灵活性。因此，我们发布了AnnotatedTables数据集，其中包含32,119个数据库，这些数据库由LLM生成的标注。该数据集包括405,616个有效的SQL程序，使其成为支持查询执行的带有相关表格数据的最大数据集。为了进一步展示我们的方法和数据集的价值，我们进行了两项后续研究。首先，我们研究了LLM是否能够将SQL程序翻译成Rel程序，这是一种LLM之前未知的数据库语言，同时获得相同的执行结果。通过基于执行反馈的增量提示工程技术，我们表明LLM可以在少量样本学习中产生足够的翻译。其次，我们在2,720个具有LLM识别和标注的输入-目标列的表格上评估了TabPFN（一种基于贝叶斯先验的最新神经表格分类器）的性能。平均而言，TabPFN的表现与基准AutoML方法相当，尽管相对性能在不同数据表之间可能会有很大差异，这使得这两种模型在实际应用中都有其可行性。我们的发现突出了LLM在自动化标注大量多样化表格数据方面的潜力。

当前挑战

AnnotatedTables数据集和相关研究面临的挑战主要包括：1) 所解决的领域问题的挑战，即如何利用LLM自动标注表格数据，减少人工劳动；2) 构建过程中所遇到的挑战，例如如何确保LLM生成的SQL代码的质量，以及如何处理LLM可能产生的无效标注。此外，LLM学习新编程语言（如Rel）的能力也需要进一步研究和评估。

常用场景

经典使用场景

AnnotatedTables 数据集的经典使用场景在于利用大型语言模型（LLM）对表格数据进行理解和标注，从而解决传统人工标注的扩展性问题。该数据集包含了由 LLM 生成的 405,616 个有效 SQL 程序，是目前最大的支持查询执行的 SQL 数据集。这使得 AnnotatedTables 成为研究和开发文本到 SQL 任务、查询优化、数据库索引等领域的宝贵资源。此外，该数据集还支持多种类型的标注，如输入-目标列标注，使其适用于表格分类等任务。

衍生相关工作

AnnotatedTables 数据集的发布，衍生了一系列相关的研究工作。例如，该数据集被用于研究 LLM 学习新编程语言（如 Rel）的能力，并取得了令人鼓舞的成果。此外，该数据集还被用于评估 TabPFN 等表格分类模型在现实世界数据上的性能，为表格分类任务的研究提供了新的视角。这些相关工作进一步证明了 AnnotatedTables 数据集的价值和潜力，并为表格数据处理的研究提供了新的思路和方向。

数据集最近研究