BIRD-CRITIC 1.0

github2025-02-05 更新2025-02-10 收录

下载链接：

https://github.com/bird-bench/BIRD-CRITIC-1

下载链接

链接失效反馈

官方服务：

资源简介：

BIRD-CRITIC 1.0引入了一个新颖的SQL基准测试，旨在评估大型语言模型在真实数据库环境中诊断和解决用户问题的能力。该基准测试包含600个开发任务和200个保留的分布外（OOD）测试任务，基于四种主要的开源SQL方言（MySQL、PostgreSQL、SQL Server和Oracle）构建，涵盖了更广泛的SQL操作，反映了实际应用场景。

BIRD-CRITIC 1.0 introduces a novel SQL benchmark designed to assess the ability of large language models to diagnose and resolve user issues in a real-world database environment. The benchmark consists of 600 development tasks and 200 held-out (OOD) test tasks, constructed based on four major open-source SQL dialects (MySQL, PostgreSQL, SQL Server, and Oracle), covering a broader range of SQL operations and reflecting real-world application scenarios.

创建时间：

2025-01-28

搜集汇总

数据集介绍

构建方式

BIRD-CRITIC 1.0数据集的构建基于现实世界数据库环境中用户问题的重现，涵盖了MySQL、PostgreSQL、SQL Server和Oracle四种流行的开源SQL方言。该数据集包括600个开发任务和200个分布外测试任务，不仅涉及简单的SELECT查询，还扩展到了更广泛的SQL操作，以反映实际应用场景。数据集的构建过程中，每个任务都经过人工专家在多个维度上的验证，确保了数据的质量和准确性。

使用方法

使用BIRD-CRITIC 1.0数据集时，用户可以从HuggingFace平台加载所需的实例。数据集不随数据提供解决方案SQL和测试用例，以避免数据泄露，用户可通过邮件获取完整数据集。在本地环境中使用时，用户需要设置相关依赖和模型配置，通过命令行工具生成预测，并使用docker环境进行评估。评估结果将保存在指定的输出目录中。

背景与挑战

背景概述

BIRD-CRITIC 1.0数据集，由香港大学和谷歌云联合创建，旨在评估大型语言模型在现实世界数据库环境中诊断和解决用户问题的能力。该数据集建立在实际用户问题之上，涵盖了4种流行的开源SQL方言：MySQL、PostgreSQL、SQL Server和Oracle。BIRD-CRITIC 1.0不仅包含简单的SELECT查询，还扩展到更广泛的SQL操作，以反映实际应用场景。该数据集的创建，为研究大型语言模型在数据库问题解决方面的应用提供了新的视角，对相关领域产生了重要影响。

当前挑战

该数据集在构建过程中面临的挑战包括：确保数据实例的真实性和多样性，设计有效的验证过程以防止数据泄露，以及创建一个优化的执行环境以进行严格的效率评估。此外，在研究领域中，如何准确评估大型语言模型在解决复杂SQL查询问题上的性能，以及如何处理和优化涉及多步骤SQL查询的用户问题，是该数据集面临的两大挑战。

常用场景

经典使用场景

BIRD-CRITIC 1.0 数据集针对大型语言模型在现实世界数据库环境中诊断和解决用户问题的能力进行评估。其经典使用场景在于为研究者提供了一个 SQL 测试平台，用以验证模型对于包含各种 SQL 方言（如 MySQL、PostgreSQL、SQL Server 和 Oracle）的复杂查询任务的处理能力。

解决学术问题

该数据集解决了学术研究中对于复杂 SQL 查询理解和生成能力评估的问题，特别是在处理用户特定的需求和逻辑优化方面。通过精确设计的测试案例和执行计划评估，BIRD-CRITIC 1.0 使得研究者能够深入理解模型在 SQL 调试和优化任务上的性能表现，从而推动数据库管理和查询优化领域的研究进展。

实际应用

在实际应用中，BIRD-CRITIC 1.0 可以为数据库管理员和开发者提供一个高效的测试环境，以评估和改进其 SQL 查询的准确性和效率。此外，它也为大型语言模型在实际数据库问题诊断和解决中的应用提供了基准。

数据集最近研究