MEBench

Name: MEBench
Creator: 香港科技大学（广州）
Published: 2025-02-26 17:56:51
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

http://arxiv.org/abs/2502.18993v1

下载链接

链接失效反馈

官方服务：

资源简介：

MEBench是一个针对跨文档多实体问题回答的新型多文档、多实体基准测试，由香港科技大学（广州）的研究人员设计。该数据集包含4,780个经过验证的问题-答案对，涵盖比较推理、统计分析、关系推理三个主要类别，旨在评估大型语言模型在整合分散的实体特定信息方面的能力。数据集通过自动化管道构建，利用结构化维基知识图进行跨文档关系发现，生成关系表以保留实体属性关系，并通过模板化QA生成确保可重复性和降低成本。

MEBench is a novel multi-document and multi-entity benchmark for cross-document multi-entity question answering, developed by researchers from The Hong Kong University of Science and Technology (Guangzhou). This dataset includes 4,780 validated question-answer pairs spanning three core categories: comparative reasoning, statistical analysis, and relational reasoning. It is intended to assess the capacity of large language models to integrate dispersed entity-specific information. The dataset is constructed via an automated pipeline, which leverages structured Wikipedia knowledge graphs for cross-document relation discovery, generates relational tables to preserve entity-attribute relationships, and utilizes template-based QA generation to guarantee reproducibility and reduce costs.

提供机构：

香港科技大学（广州）

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

MEBench数据集的构建是通过一个系统的流程实现的，首先从Wikipedia中提取结构化知识图，然后利用这些信息生成关系表，最后基于模板驱动的QA生成范式，通过GPT-4模型生成问题和答案。整个流程分为三个阶段：文档收集、信息提取和问答生成。在文档收集阶段，首先确定了适用于多实体场景的概念主题，然后使用GPT-4模型处理相关描述以提取实体和属性，并将其映射到Wikipedia ID中。在信息提取阶段，使用小语言模型（SLMs）处理从Wikipedia收集的结构化信息，并创建包含实体属性为列的表格。在问答生成阶段，问题根据预定义的模板生成，并经过语法、语义和歧义检查。答案则通过SQL查询自动生成，并标准化为规范形式。

特点

MEBench数据集具有以下几个显著特点：首先，它包含了4,780个经过验证的问答对，这些问答对系统地分为三个主要类别和八个类型，涵盖了各种现实世界的多实体推理场景。其次，MEBench强调了信息提取的完整性和事实精确性，使用了实体属性F1（EA-F1）指标来评估实体级别的正确性和属性有效性。此外，MEBench的数据集具有可追溯性，每个答案都通过SQL查询链接到表格，保证了答案的准确性和可靠性。最后，MEBench的数据集具有可扩展性，模板驱动的问答生成方法支持快速生成多样化的QA对，提高了数据集的生成效率。

使用方法

使用MEBench数据集的方法主要分为三个步骤：首先，数据集可以用于模型的微调和评估。通过在MEBench的训练集上进行微调，模型可以学习到如何更好地处理多实体问题。其次，数据集可以用于研究LLM和RAG系统在跨文档多实体问答场景中的性能。通过对不同模型的实验，可以揭示LLM和RAG系统的局限性和挑战。最后，数据集可以用于开发更强大的实体感知问答架构。MEBench的数据集和评价指标可以帮助研究人员识别现有模型的弱点，并为未来的研究提供方向。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型（LLMs）和检索增强生成（RAG）系统在处理跨文档多实体问答（MEQA）任务时面临着挑战。为了解决这一问题，研究人员Teng LIN等人于2025年创建了MEBench数据集。MEBench是一个多文档、多实体的基准测试数据集，旨在系统地评估LLMs在检索、整合和推理分散且密集的信息方面的能力。该数据集包含4,780个问题，分为比较推理、统计推理和关系推理三大类别，进一步细分为八种不同类型，以确保涵盖广泛的现实世界多实体推理场景。MEBench强调了信息提取的完整性和事实精确度在MEQA任务中的重要性，并使用实体属性F1（EA-F1）指标对实体级别的正确性和属性有效性进行细粒度评估。

当前挑战

MEBench数据集所面临的挑战主要包括：1）领域问题挑战：MEQA任务需要整合来自不同文档的分散信息来解决涉及实体、关系和上下文依赖的复杂查询。2）构建挑战：在构建MEBench数据集的过程中，研究人员遇到了如何有效地构建一个能够评估LLMs在跨文档多实体问答场景中性能的基准测试框架的问题。此外，现有的评估指标通常不能充分代表现实世界MEQA应用程序的复杂性。

常用场景

经典使用场景

MEBench数据集在评估大型语言模型（LLMs）和检索增强生成（RAG）系统在跨文档多实体问答（MEQA）任务中的性能方面具有经典应用。该数据集要求模型能够从多个文档中检索、整合和推理分散且密集的信息，从而解决涉及实体、关系和上下文依赖的复杂查询。MEBench涵盖了比较推理、统计分析、关系推理等三个主要类别，每个类别进一步细分为八个不同的类型，确保了广泛覆盖现实世界中的多实体推理场景。

解决学术问题

MEBench数据集解决了现有问答基准在评估跨文档、多实体问答任务中的性能不足的问题。通过引入实体属性F1（EA-F1）指标，该数据集实现了对实体层面正确性和属性有效性进行细粒度评估。MEBench的引入强调了在MEQA任务中信息提取的完整性和事实准确性，为推动鲁棒、实体感知的问答架构的发展奠定了基础。

衍生相关工作

MEBench数据集的引入衍生了一系列相关研究工作，主要集中在改进LLMs和RAG系统在处理跨文档、多实体问答任务时的性能。这些研究工作包括开发更精确的评估指标、设计更有效的信息提取和整合算法，以及探索新的模型架构，以更好地处理实体密集型推理任务。MEBench的引入为这些研究工作提供了一个重要的基准和参考点，有助于推动问答系统领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集