MEMERAG

arXiv2025-02-25 更新2025-02-26 收录

下载链接：

https://anonymous

下载链接

链接失效反馈

官方服务：

资源简介：

MEMERAG数据集是基于MIRACL数据集构建的，包含18种语言的本地问题以及针对多语言检索评估的相关性判断。该数据集通过使用多种大型语言模型（LLMs）生成五种语言的答案，并由本地专家对这些答案进行真实性和相关性评估。数据集旨在为开发能够与人类判断相关联的多语言自动评估器提供基准，解决多语言检索增强生成系统自动评估的问题。

The MEMERAG dataset is built upon the MIRACL dataset, covering native questions in 18 languages along with relevance judgments for multilingual retrieval evaluation. This dataset generates answers in five languages using multiple large language models (LLMs), with their authenticity and relevance evaluated by native experts. The dataset aims to provide a benchmark for developing multilingual automatic evaluators that align with human judgments, addressing the challenge of automatic evaluation for multilingual retrieval-augmented generation (RAG) systems.

提供机构：

亚马逊

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

MEMERAG数据集的构建方式基于MIRACL数据集，该数据集包含18种语言的本地问题以及检索到的段落的关联性判断。MEMERAG数据集扩展了MIRACL，使用多种大型语言模型(LLMs)以五种语言生成回答，并由专家标注员对答案的真实性和关联性进行评估。数据集涵盖了英语、德语、西班牙语、法语和印地语等五种语言，代表了多种语言家族和高、低资源语言。构建过程中，首先从MIRACL数据集中选择相关问题上下文对，然后使用各种语言模型生成答案，并收集专家对答案质量的判断。

特点

MEMERAG数据集的特点在于其多语言性和端到端的元评估。数据集的构建避免了使用翻译数据，从而更准确地捕捉文化细节，并减少翻译带来的偏差。此外，数据集的标注过程采用了严格的流程图设计，实现了高标注员间一致性。MEMERAG数据集旨在支持可靠自动评估方法的发展，并促进多语言RAG系统的全面评估。

使用方法

MEMERAG数据集的使用方法涉及多个方面。首先，数据集可用于自动评估模型的开发，通过比较不同模型的性能来选择最佳模型。其次，数据集可用于选择合适的提示，以优化自动评估过程。此外，数据集还支持对模型性能进行细粒度分析，以识别特定类型的错误和挑战。数据集的这些应用场景旨在提高多语言自动评估的准确性和可靠性。

背景与挑战

背景概述

随着自然语言处理技术的快速发展，检索增强生成（RAG）系统已成为大型语言模型（LLM）应用的热点领域。MEMERAG数据集应运而生，旨在为RAG系统的自动评估提供一个多语言、端到端元评估基准。该数据集由María Andrea Cruz Blandón、Jayasimha Talur、Bruno Charron、Dong Liu、Saab Mansour和Marcello Federico等人创建，于2025年发布。MEMERAG数据集基于流行的MIRACL数据集，使用多种大型语言模型（LLM）生成响应，并由专家注释员对响应的忠实度和相关性进行评估。该数据集的创建不仅填补了现有RAG元评估数据集主要关注英语或使用翻译数据的空白，还提供了对文化细微差异的捕捉，从而更准确地反映最终用户的体验。

当前挑战

MEMERAG数据集面临的主要挑战包括：1)解决领域问题的挑战：RAG系统在自动评估方面依赖于细粒度的维度，如忠实度和相关性，这些维度通常由专家人工注释员判断。现有基准主要集中在英语或使用翻译数据，这无法捕捉文化细微差异。2)构建过程中的挑战：构建一个多语言、端到端的元评估基准需要解决数据收集、模型选择、注释过程等多个方面的问题。MEMERAG数据集通过使用多种LLM生成响应，并由专家注释员进行评估，有效地解决了这些问题。然而，数据集的构建过程仍然面临一些挑战，如注释员之间的共识、不同语言的复杂性等。

常用场景

经典使用场景

MEMERAG数据集在自动评估检索增强生成（RAG）系统方面具有经典的使用场景。RAG系统是一种利用大型语言模型（LLM）和检索技术相结合的方法，旨在提高LLM的准确性。MEMERAG数据集通过包含多种语言的问题和LLM生成的答案，为评估RAG系统的质量和性能提供了丰富的资源。此外，该数据集还提供了由专家注释员对答案的忠实度和相关性进行评估的结果，使得研究人员可以更好地理解RAG系统的行为和表现。

衍生相关工作

MEMERAG数据集衍生了许多相关的经典工作。例如，研究人员可以使用该数据集来开发新的自动评估器，这些评估器可以与人类的评估结果相匹配，从而为RAG系统提供更准确、更可靠的评估。此外，该数据集还可以用于开发新的RAG系统，并通过与其他系统的比较来评估其性能。此外，该数据集还可以用于研究RAG系统的行为和表现，从而为未来的研究提供参考。总之，MEMERAG数据集为RAG系统的评估和应用提供了一个重要的工具，并为未来的研究提供了重要的基础。

数据集最近研究