BEAVER

Name: BEAVER
Creator: 麻省理工学院
Published: 2024-09-04 00:37:45
License: 暂无描述

arXiv2024-09-04 更新2024-09-06 收录

下载链接：

https://peterbaile.github.io/beaver/

下载链接

链接失效反馈

官方服务：

资源简介：

BEAVER数据集由麻省理工学院的研究团队创建，旨在评估大型语言模型在企业数据仓库环境中的文本到SQL任务性能。该数据集包含93个自然语言查询及其对应的SQL语句，来源于真实的企业数据仓库，涵盖了复杂的表结构和查询需求。数据集的创建过程包括从实际用户历史中收集SQL语句，并通过匿名化处理确保数据隐私。BEAVER数据集主要用于研究如何改进文本到SQL系统的性能，特别是在处理复杂企业数据时，旨在解决现有公开数据集无法充分反映真实企业环境的问题。

提供机构：

麻省理工学院

创建时间：

2024-09-04

搜集汇总

数据集介绍

构建方式

BEAVER数据集的构建采用了真实的两个企业数据仓库的数据，并收集了自然语言查询及其对应的正确SQL语句。这些数据来源于实际用户的历史记录，确保了数据的真实性和实用性。数据集中的表信息、列类型和行数据均被收集，并添加了主键和外键关系。SQL语句的收集则来自源组织的日志和报告，并通过替换特定名称和字面量以保持SQL查询的多样性。自然语言问题的构建则由研究生和数据库管理员共同完成，确保了问题的质量和准确性。

特点

BEAVER数据集的特点在于其高度复杂的查询和表结构。相比于公开数据集中的简单表结构，BEAVER数据集中的表具有更多的列和更复杂的查询，需要更多的连接和聚合操作。数据集的查询复杂性在三个维度上都有较高的表现，包括每查询的平均连接数、每查询的平均聚合次数和查询的嵌套深度。这些特点使得BEAVER数据集成为测试和评估文本到SQL任务的理想选择。

使用方法

使用BEAVER数据集时，首先需要理解其数据结构和查询复杂性。数据集包含了表信息、SQL语句和自然语言问题，可以使用这些数据来测试文本到SQL任务的性能。在实验设置中，可以采用检索设置和检索无关设置两种方式。在检索设置中，使用检索系统从数据库中检索与用户问题最相关的表，然后将这些表的模式和用户问题一起作为输入提供给生成式LLM来生成SQL语句。在检索无关设置中，只提供必要的表来构建正确的SQL查询。这两种设置都可以用来评估LLM在生成SQL语句方面的能力。

背景与挑战

背景概述

在自然语言处理领域，文本到SQL的转换任务一直是一个重要的研究方向。现有的文本到SQL数据集大多使用来自网络的公开表格和人工生成的测试，其中包含问题和SQL语句对。这些数据集通常显示出非常好的结果，使人们认为大型语言模型（LLM）在文本到SQL任务上非常有效。然而，这些数据集并不代表现实世界的企业环境。为了解决这一问题，Peter Baile Chen等人提出了一个名为BEAVER的新数据集，该数据集来源于真实的商业数据仓库，包含了自然语言查询及其对应的SQL语句，用于测试任何LLM在文本到SQL任务上的性能。

当前挑战

BEAVER数据集面临的挑战主要包括：1) 公共LLM无法在企业数据仓库上训练，因为这些数据通常位于“暗网”上；2) 企业表的架构比公共数据中的架构更复杂，这使得SQL生成任务本身更具挑战性；3) 商业导向的问题通常更复杂，需要跨多个表的连接和聚合。因此，BEAVER数据集旨在促进未来研究者构建更复杂的文本到SQL系统，使其能够更好地处理这类重要数据。

常用场景

经典使用场景

BEAVER数据集主要用于评估大型语言模型（LLM）在处理企业级数据仓库中自然语言到SQL查询任务的性能。它包含来自真实企业数据仓库的自然语言查询及其对应的SQL语句，旨在模拟现实世界中的企业数据环境。该数据集的使用场景包括但不限于对LLM进行基准测试，以评估其在复杂企业数据库模式和高复杂性查询方面的表现。

实际应用

BEAVER数据集在实际应用中可用于帮助企业构建更高级的文本到SQL系统，以更好地处理复杂的企业级查询。通过对LLM在企业数据上的性能进行评估，企业可以识别出LLM在处理企业级数据时的瓶颈，从而针对性地进行优化和改进。此外，BEAVER数据集还可以用于训练和评估新的LLM模型，以提高它们在企业环境中的表现。

衍生相关工作

BEAVER数据集的提出引发了一系列相关研究，旨在改进LLM在企业环境中的文本到SQL查询任务性能。这些研究包括对LLM进行优化，以更好地处理复杂的企业数据库模式和高复杂性查询；开发新的评估指标，以更准确地衡量LLM在企业环境中的性能；以及探索LLM在企业数据上的泛化能力。这些研究为构建更高级的文本到SQL系统提供了重要的理论基础和实践指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集