Modified Spider Benchmark

Name: Modified Spider Benchmark
Creator: IBM研究院
Published: 2024-09-11 05:46:32
License: 暂无描述

arXiv2024-09-11 更新2024-09-13 收录

下载链接：

http://arxiv.org/abs/2409.05735v2

下载链接

链接失效反馈

官方服务：

资源简介：

Modified Spider Benchmark是由IBM研究院创建的一个扩展数据集，旨在评估基于大型语言模型（LLM）的问答系统在处理异构数据源（如数据库和API）时的性能。该数据集通过替换部分Spider数据集中的数据库表为数据检索API，模拟了更真实的工业环境。数据集的创建过程涉及将抽象模式转换为关系模式，并利用用户定义函数（UDF）调用外部API。该数据集主要应用于工业领域，特别是石油与天然气以及能源与公用事业，旨在解决现有问答系统在处理异构数据源时的局限性。

提供机构：

IBM研究院

创建时间：

2024-09-09

搜集汇总

数据集介绍

构建方式

Modified Spider Benchmark 数据集的构建方式是通过扩展流行的Spider数据集，将其中的一些数据库表替换为等价的API调用，以模拟更现实的数据异构环境。具体来说，它通过随机替换一个可调整的百分比ATTR的数据库表来实现，ATTR表示API到表的比率。当ATTR为0%时，它退化为传统的Spider数据集；当ATTR为100%时，所有数据都需要通过API调用获取。

特点

Modified Spider Benchmark 数据集的特点在于它模拟了现实世界中常见的数据异构性，包括不同类型的数据库和API。它提供了一个统一的关系视图，使得LLM可以生成SQL查询，而查询重写模块负责将LLM生成的SQL查询中的虚拟表替换为调用外部API的用户定义函数。此外，它还支持跨数据库和API的复杂查询。

使用方法

使用Modified Spider Benchmark 数据集的方法包括：首先，准备或提取数据源的模式信息，包括实体关系图和API映射模式；其次，利用siwarex框架中的ReAct Agent和其它组件，如表选择器、查询重写器和Guardrail Enforcer等，来处理自然语言查询并生成答案；最后，通过比较系统生成的结果和金标准Spider SQL查询在原始Spider数据库上的执行结果来评估系统的性能。

背景与挑战

背景概述

Modified Spider Benchmark 数据集是由IBM Research团队在2024年提出并发布的。该数据集的创建旨在解决现有Q&A系统在处理异构数据源方面的局限性，核心研究问题是设计一个能够处理混合数据库和API调用的问题回答系统。该数据集的发布对于相关领域的研究具有重要意义，它提供了一个新的基准，用以评估和比较不同系统在处理异构数据源方面的性能。

当前挑战

Modified Spider Benchmark数据集相关的挑战主要包括：1) 设计和实现一个能够无缝处理数据库和API调用的系统；2) 构建一个能够反映现实工业环境中数据异构性的基准数据集；3) 评估系统在处理不同比例的数据库调用和API调用时的性能表现。

常用场景

经典使用场景

Modified Spider Benchmark数据集的经典使用场景在于评估大型语言模型在处理异构数据源时的问答能力。它通过扩展流行的Spider数据集，将部分数据库表替换为等价的API调用，从而模拟实际工业环境中数据源的异构性。

解决学术问题

该数据集解决了现有问答系统无法处理异构数据源的问题，为研究社区提供了一个新的评估工具，用于测量大型语言模型在处理包含数据库和API的混合数据源时的表现。

衍生相关工作

该数据集的衍生工作包括进一步扩展数据集以包含更多类型的数据源，例如不同类型的SQL数据库和NoSQL数据库，以及执行计算或分析任务的API，从而提高数据集的现实性和覆盖面。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集