MT-RAIG BENCH

Name: MT-RAIG BENCH
Creator: 延世大学 DLI实验室
Published: 2025-02-18 13:12:25
License: 暂无描述

arXiv2025-02-18 更新2025-02-19 收录

下载链接：

https://github.com/KWONDU/mt-raig

下载链接

链接失效反馈

官方服务：

资源简介：

MT-RAIG BENCH是由延世大学DLI实验室创建的大型基准数据集，旨在评估系统在多个表格上的检索增强型洞见生成能力。该数据集包含18532个测试示例，涉及19563个独特的表格，覆盖了5418个独特的表格集。每个示例平均涉及2.88个金标表格。数据集通过自动化和人工审核相结合的方式构建，包含分析总结、比较关系、性能结果和趋势模式等多种类型的问题。

MT-RAIG BENCH is a large-scale benchmark dataset created by the DLI Lab at Yonsei University, aiming to evaluate the retrieval-augmented insight generation capabilities of systems across multiple tables. This dataset contains 18,532 test examples, involving 19,563 unique tables and covering 5,418 unique table collections. On average, each example refers to 2.88 gold-standard tables. The dataset is constructed through a hybrid approach combining automation and manual review, and includes multiple types of questions such as analytical summaries, comparative relationships, performance results and trend patterns.

提供机构：

延世大学 DLI实验室

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

MT-RAIG BENCH数据集的构建过程涉及多阶段的质量控制和机器学习技术的应用。首先，数据集从现有的单表语料库扩展为多表集合，通过语义聚类将相关联的表格分组。其次，通过GPT-4o mini等语言模型生成多样化的问题，并经过人类指导的迭代流程进行完善。随后，通过程序化的多表事实扩展过程丰富每个表格集的自然语言事实，并提取与问题相关的事实。最后，通过机器和人类的双重验证确保每个多表集、问题和洞察三重符合严格的相关性、真实性和完整性标准。

特点

MT-RAIG BENCH数据集的特点在于它模拟了现实世界中的多表推理场景，要求系统根据用户查询检索多个证据表，并在这些表之间整合信息以生成有洞察力的回答。数据集包含18,532个测试示例，涉及19,563个独特的表格，每个示例平均包含2.88个金表。数据集涵盖了多种问题类型，包括分析总结、比较关系、性能结果和趋势模式。

使用方法

MT-RAIG BENCH数据集可用于评估和比较不同模型在多表检索和洞察生成方面的性能。数据集的使用包括两个主要步骤：多表检索和洞察生成。在多表检索步骤中，模型需要根据输入查询检索与问题相关的多个证据表。在洞察生成步骤中，模型需要根据检索到的表格生成有洞察力的回答。MT-RAIG EVAL自动评估框架可用于评估生成的洞察的真实性和完整性。

背景与挑战

背景概述

MT-RAIG BENCH 数据集的创建旨在解决当前表格推理领域中的关键问题。该数据集由韩国延世大学 DLI 实验室的研究人员于 2025 年提出，旨在评估系统在多个表格上的检索增强洞察生成能力。MT-RAIG BENCH 的核心研究问题是如何让系统从多个表格中综合隐含知识，提供可解释的分析，以满足用户对全面洞察的需求。该数据集的提出对相关领域产生了重要影响，为未来研究提供了一个具有挑战性的测试平台。

当前挑战

MT-RAIG BENCH 数据集面临的挑战主要包括：1) 领域问题挑战：该数据集旨在解决多个表格上的检索增强洞察生成问题，要求系统不仅能检索到与用户查询相关的表格，还能从多个无关表格中提取证据，并将这些证据综合起来生成有意义的洞察。2) 构建过程挑战：在构建数据集的过程中，研究人员面临着如何确保数据质量和一致性的问题。他们采用了机器辅助的人机协作标注流程，并通过双阶段质量控制过程来确保数据的质量。尽管如此，数据集的构建仍然面临着潜在的局限性，例如减少语言多样性和可能过度适应模型生成的响应。此外，该数据集仅涵盖了关系数据库表和维基百科表，未来可以考虑增加更多来自不同领域的数据源。

常用场景

经典使用场景

MT-RAIG BENCH作为首个大规模基准，旨在评估系统在多表检索增强洞察生成任务上的性能。该数据集要求系统根据输入查询检索多个证据表，并综合这些表的信息生成有洞察力的回答。这使得MT-RAIG BENCH成为评估和开发能够处理复杂多表推理的系统的理想平台。

衍生相关工作

MT-RAIG BENCH的发布推动了相关研究的发展，包括开发新的多表检索算法和洞察生成模型。此外，MT-RAIG EVAL的引入也促进了自动评估方法的改进，这些方法在评估长篇输出的质量方面更加精确和可靠。

数据集最近研究