BIS
收藏arXiv2024-10-30 更新2024-11-05 收录
下载链接:
https://github.com/boracaglayan/bis-nl2sql
下载链接
链接失效反馈官方服务:
资源简介:
BIS数据集是由华为爱尔兰研究中心开发的,专门用于评估自然语言到结构化查询语言(NL2SQL)模型在商业智能(BI)场景中的表现。该数据集包含了239条常见BI查询问题,涵盖了时间序列数据、复杂查询和多表连接等挑战。数据集的创建旨在解决现有NL2SQL基准不适用于实际BI场景的问题,特别是针对BI数据库中的模式不规则性和内容复杂性。BIS数据集的应用领域主要集中在BI分析、自动化仪表盘和数据可视化工具的开发,旨在提高非技术用户的分析效率和数据查询的准确性。
The BIS dataset was developed by Huawei Ireland Research Center, specifically for evaluating the performance of natural language to structured query language (NL2SQL) models in business intelligence (BI) scenarios. This dataset consists of 239 common BI query questions, covering challenges such as time-series data, complex queries, and multi-table joins. The dataset was created to address the issue that existing NL2SQL benchmarks are not suitable for real-world BI scenarios, particularly regarding the schema irregularities and content complexity in BI databases. The application scenarios of the BIS dataset mainly focus on the development of BI analysis, automated dashboards, and data visualization tools, aiming to improve the analysis efficiency and data query accuracy for non-technical users.
提供机构:
华为爱尔兰研究中心
创建时间:
2024-10-30
原始信息汇总
数据集概述
数据集定义
- Dataset1: 用于AD任务管理的业务操作数据集。
- Dataset2: 用于系统操作和基础设施管理的小型操作数据集。
文件说明
- *.sqlite3: 包含示例数据的SQLite数据库文件。
- questions_*.json: 包含问题和查询的JSON文件。
- tables_*.json: 包含模式信息的JSON文件。
评估示例
- evaluation_example.py: 用于评估SQL结果的示例方法。
时间信息
- 日期范围: 数据集的日期范围为2023-01-02至2023-01-17。
- 周起始日: 每周的第一天是星期一。例如,“上周”指的是从2023-01-09到2023-01-15。
- 当前日期: 当前日期或“今天”应设置为2023-01-17,以测试条件查询,如“今天的过滤计数是多少?”
搜集汇总
数据集介绍

构建方式
BIS数据集的构建旨在填补现有NL2SQL基准在商业智能(BI)场景中的不足。通过分析组织内常见的BI查询模式,该数据集精心设计了九种常见查询类别,涵盖过滤、时间周期、比较、趋势比较、多表查询、排名、百分比、聚合和语言特定查询。此外,数据集包含两个数据库,分别用于广告活动和系统操作数据,提供了丰富的业务场景数据。为确保评估的准确性,数据集还引入了两种新的评估指标:SQL语句语义相似性和SQL结果部分相似性,以更全面地评估NL2SQL模型在BI应用中的表现。
特点
BIS数据集的显著特点在于其专注于商业智能场景,提供了丰富的业务查询类型和复杂的数据库模式。与现有基准相比,BIS特别强调时间序列数据和多表查询,这些在BI应用中尤为常见。此外,数据集引入了两种新的评估指标,旨在更精确地衡量模型在部分匹配和语义相似性方面的表现,从而更贴近实际BI应用的需求。
使用方法
BIS数据集适用于评估和开发NL2SQL模型,特别是在商业智能领域。用户可以通过提供的GitHub仓库下载数据集,并使用Python 3.9+运行评估脚本。数据集包含详细的下载和使用指南,以及示例数据库和评估脚本。通过将NL2SQL模型生成的SQL查询与数据集中的真实SQL进行比较,用户可以计算语义相似性和结果部分相似性,从而全面评估模型的性能。
背景与挑战
背景概述
BIS数据集,全称为NL2SQL Service Evaluation Benchmark for Business Intelligence Scenarios,由华为爱尔兰研究中心、都柏林三一学院和华为技术有限公司的研究人员共同开发。该数据集旨在解决现有NL2SQL(自然语言到结构化查询语言)基准不适用于生产环境中的商业智能(BI)场景的问题。BIS数据集专注于工业BI场景中的典型自然语言问题,通过引入新的语义相似性评估指标,填补了现有基准的空白。该数据集的创建不仅提升了NL2SQL模型在BI应用中的评估标准,还为非技术用户提供了更灵活的数据分析工具,推动了无代码软件开发的发展。
当前挑战
BIS数据集在构建过程中面临多重挑战。首先,现有的NL2SQL基准在数据库模式定义、内容覆盖、问题上下文和语言多样性方面存在不足,无法有效评估BI场景中的复杂查询。其次,构建BI专用基准时,需处理数据库模式的不规则性、时间序列数据的问题、复杂的时态选择以及多语言混合查询的解析。此外,现有的评估指标过于简化,未能充分考虑部分匹配或语义上相同的预测,导致评估结果不准确。BIS数据集通过引入新的评估指标,旨在更真实地反映模型性能,但仍需克服测试数据库的准确性、列匹配的精确度以及计算复杂性等问题。
常用场景
经典使用场景
BIS数据集在商业智能(BI)场景中被广泛用于评估自然语言到结构化查询语言(NL2SQL)模型的性能。其经典使用场景包括对常见BI问题的自然语言查询进行分类和评估,如过滤查询、时间周期查询、趋势查询等。通过这些分类,BIS数据集能够帮助研究人员和开发者更好地理解和优化NL2SQL模型在实际BI应用中的表现。
解决学术问题
BIS数据集解决了现有NL2SQL基准在商业智能场景中的不足,特别是对常见BI问题的覆盖不足和评估指标的局限性。通过引入新的评估指标,如语义查询相似性和结果部分相似性,BIS数据集能够更准确地评估模型在处理复杂BI查询时的性能,从而推动NL2SQL技术在商业智能领域的应用和发展。
衍生相关工作
BIS数据集的提出激发了大量相关研究工作,特别是在NL2SQL模型评估和优化方面。例如,后续研究者可能基于BIS数据集开发新的评估方法或改进现有模型的性能。此外,BIS数据集也为跨语言NL2SQL模型的研究提供了基础,促进了多语言环境下BI系统的自然语言查询功能的实现。
以上内容由遇见数据集搜集并总结生成



