five

MEBench

收藏
arXiv2025-02-26 更新2025-02-28 收录
下载链接:
http://arxiv.org/abs/2502.18993v1
下载链接
链接失效反馈
官方服务:
资源简介:
MEBench是一个针对跨文档多实体问题回答的新型多文档、多实体基准测试,由香港科技大学(广州)的研究人员设计。该数据集包含4,780个经过验证的问题-答案对,涵盖比较推理、统计分析、关系推理三个主要类别,旨在评估大型语言模型在整合分散的实体特定信息方面的能力。数据集通过自动化管道构建,利用结构化维基知识图进行跨文档关系发现,生成关系表以保留实体属性关系,并通过模板化QA生成确保可重复性和降低成本。

MEBench is a novel multi-document and multi-entity benchmark for cross-document multi-entity question answering, developed by researchers from The Hong Kong University of Science and Technology (Guangzhou). This dataset includes 4,780 validated question-answer pairs spanning three core categories: comparative reasoning, statistical analysis, and relational reasoning. It is intended to assess the capacity of large language models to integrate dispersed entity-specific information. The dataset is constructed via an automated pipeline, which leverages structured Wikipedia knowledge graphs for cross-document relation discovery, generates relational tables to preserve entity-attribute relationships, and utilizes template-based QA generation to guarantee reproducibility and reduce costs.
提供机构:
香港科技大学(广州)
创建时间:
2025-02-26
搜集汇总
数据集介绍
main_image_url
构建方式
MEBench数据集的构建是通过一个系统的流程实现的,首先从Wikipedia中提取结构化知识图,然后利用这些信息生成关系表,最后基于模板驱动的QA生成范式,通过GPT-4模型生成问题和答案。整个流程分为三个阶段:文档收集、信息提取和问答生成。在文档收集阶段,首先确定了适用于多实体场景的概念主题,然后使用GPT-4模型处理相关描述以提取实体和属性,并将其映射到Wikipedia ID中。在信息提取阶段,使用小语言模型(SLMs)处理从Wikipedia收集的结构化信息,并创建包含实体属性为列的表格。在问答生成阶段,问题根据预定义的模板生成,并经过语法、语义和歧义检查。答案则通过SQL查询自动生成,并标准化为规范形式。
特点
MEBench数据集具有以下几个显著特点:首先,它包含了4,780个经过验证的问答对,这些问答对系统地分为三个主要类别和八个类型,涵盖了各种现实世界的多实体推理场景。其次,MEBench强调了信息提取的完整性和事实精确性,使用了实体属性F1(EA-F1)指标来评估实体级别的正确性和属性有效性。此外,MEBench的数据集具有可追溯性,每个答案都通过SQL查询链接到表格,保证了答案的准确性和可靠性。最后,MEBench的数据集具有可扩展性,模板驱动的问答生成方法支持快速生成多样化的QA对,提高了数据集的生成效率。
使用方法
使用MEBench数据集的方法主要分为三个步骤:首先,数据集可以用于模型的微调和评估。通过在MEBench的训练集上进行微调,模型可以学习到如何更好地处理多实体问题。其次,数据集可以用于研究LLM和RAG系统在跨文档多实体问答场景中的性能。通过对不同模型的实验,可以揭示LLM和RAG系统的局限性和挑战。最后,数据集可以用于开发更强大的实体感知问答架构。MEBench的数据集和评价指标可以帮助研究人员识别现有模型的弱点,并为未来的研究提供方向。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLMs)和检索增强生成(RAG)系统在处理跨文档多实体问答(MEQA)任务时面临着挑战。为了解决这一问题,研究人员Teng LIN等人于2025年创建了MEBench数据集。MEBench是一个多文档、多实体的基准测试数据集,旨在系统地评估LLMs在检索、整合和推理分散且密集的信息方面的能力。该数据集包含4,780个问题,分为比较推理、统计推理和关系推理三大类别,进一步细分为八种不同类型,以确保涵盖广泛的现实世界多实体推理场景。MEBench强调了信息提取的完整性和事实精确度在MEQA任务中的重要性,并使用实体属性F1(EA-F1)指标对实体级别的正确性和属性有效性进行细粒度评估。
当前挑战
MEBench数据集所面临的挑战主要包括:1)领域问题挑战:MEQA任务需要整合来自不同文档的分散信息来解决涉及实体、关系和上下文依赖的复杂查询。2)构建挑战:在构建MEBench数据集的过程中,研究人员遇到了如何有效地构建一个能够评估LLMs在跨文档多实体问答场景中性能的基准测试框架的问题。此外,现有的评估指标通常不能充分代表现实世界MEQA应用程序的复杂性。
常用场景
经典使用场景
MEBench数据集在评估大型语言模型(LLMs)和检索增强生成(RAG)系统在跨文档多实体问答(MEQA)任务中的性能方面具有经典应用。该数据集要求模型能够从多个文档中检索、整合和推理分散且密集的信息,从而解决涉及实体、关系和上下文依赖的复杂查询。MEBench涵盖了比较推理、统计分析、关系推理等三个主要类别,每个类别进一步细分为八个不同的类型,确保了广泛覆盖现实世界中的多实体推理场景。
解决学术问题
MEBench数据集解决了现有问答基准在评估跨文档、多实体问答任务中的性能不足的问题。通过引入实体属性F1(EA-F1)指标,该数据集实现了对实体层面正确性和属性有效性进行细粒度评估。MEBench的引入强调了在MEQA任务中信息提取的完整性和事实准确性,为推动鲁棒、实体感知的问答架构的发展奠定了基础。
衍生相关工作
MEBench数据集的引入衍生了一系列相关研究工作,主要集中在改进LLMs和RAG系统在处理跨文档、多实体问答任务时的性能。这些研究工作包括开发更精确的评估指标、设计更有效的信息提取和整合算法,以及探索新的模型架构,以更好地处理实体密集型推理任务。MEBench的引入为这些研究工作提供了一个重要的基准和参考点,有助于推动问答系统领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作