MIRAGE-BENCH

Name: MIRAGE-BENCH
Creator: 滑铁卢大学, 加拿大; Vectara, 美国
Published: 2024-10-18 00:18:49
License: 暂无描述

arXiv2024-10-18 更新2024-10-19 收录

下载链接：

https://github.com/vectara/mirage-bench

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE-BENCH是由滑铁卢大学和Vectara共同创建的多语言检索增强生成（RAG）系统基准测试数据集，涵盖18种不同语言。数据集基于MIRACL检索数据集构建，包含11195条评估数据和39763条训练数据。数据集的创建过程包括使用MIRACL中的查询和相关性判断，并通过GPT-4o等大型语言模型生成多语言答案。MIRAGE-BENCH主要用于评估多语言RAG系统在生成任务中的表现，旨在解决现有RAG基准测试主要集中在英语上的问题。

MIRAGE-BENCH is a multilingual Retrieval-Augmented Generation (RAG) system benchmark dataset co-developed by the University of Waterloo and Vectara, spanning 18 distinct languages. Constructed on the basis of the MIRACL retrieval dataset, it consists of 11,195 evaluation instances and 39,763 training instances. The dataset creation workflow employs queries and relevance judgments sourced from MIRACL, and generates multilingual answers using large language models (LLMs) such as GPT-4o. MIRAGE-BENCH is primarily designed to assess the performance of multilingual RAG systems in generation tasks, with the goal of addressing the limitation that existing RAG benchmarks are predominantly focused on the English language.

提供机构：

滑铁卢大学, 加拿大; Vectara, 美国

创建时间：

2024-10-18

原始信息汇总

MIRAGE-BENCH

概述

名称: MIRAGE-BENCH
描述: 用于论文《MIRAGE-BENCH: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems》的代码和数据集。

状态

发布状态: 代码和数据即将发布。

搜集汇总

数据集介绍

构建方式

MIRAGE-BENCH 数据集的构建基于 MIRACL 数据集，该数据集包含由母语者生成的高质量查询和维基百科文章的人工标注相关性判断。MIRAGE-BENCH 通过重用 MIRACL 开发集中的查询和相关性判断的段落，扩展了多语言生成评估。数据集涵盖了 18 种多样化的语言，并采用了 GPT-4o 作为教师模型进行成对评估，以训练一个学习排序模型作为‘代理’裁判，生成一个合成竞技场排行榜。

特点

MIRAGE-BENCH 数据集的特点在于其多语言覆盖广泛，涵盖了 18 种语言，并且评估方法结合了传统的启发式特征和 GPT-4o 作为裁判的评估。数据集通过训练一个学习排序模型，能够在不依赖昂贵的大型语言模型的情况下，近似地评估多语言检索增强生成系统的性能。此外，数据集还提供了详细的统计数据和评估流程，确保评估的全面性和准确性。

使用方法

MIRAGE-BENCH 数据集主要用于评估多语言检索增强生成系统的性能。研究者和开发者可以使用该数据集来训练和验证他们的模型，通过比较模型在启发式特征和 GPT-4o 评估下的表现，来优化和提升模型的生成质量。数据集还提供了详细的评估流程和代码库，方便用户进行自定义评估和实验。

背景与挑战

背景概述

MIRAGE-BENCH 是由加拿大滑铁卢大学和美国 Vectara 公司共同开发的多语言检索增强生成系统（RAG）基准数据集。该数据集于 2024 年发布，旨在解决现有 RAG 基准数据集主要依赖于启发式评估指标的问题，这些指标需要人类偏好作为参考标准。MIRAGE-BENCH 通过训练一个学习排序模型作为“代理”评判，使用 RAG 评估启发式特征作为输入，生成一个合成竞技场排行榜，从而结合了启发式和大型语言模型（LLM）评判的优势。该数据集涵盖了 18 种多样化的语言，并在维基百科上进行了标准化评估，对 RAG 系统进行了广泛的评估。MIRAGE-BENCH 的开发对多语言 RAG 系统的研究具有重要影响，特别是在评估和改进多语言生成任务方面。

当前挑战

MIRAGE-BENCH 面临的主要挑战包括：1) 解决多语言 RAG 系统中的评估问题，特别是非英语查询和段落的生成响应评估；2) 在构建过程中遇到的挑战，如处理多语言数据的不均匀性和稀缺性。此外，现有的 RAG 基准数据集主要是英语中心化的，缺乏对多语言性能的全面评估。MIRAGE-BENCH 通过引入合成竞技场排行榜和代理评判模型，试图解决这些挑战，但仍需面对计算成本高昂和评判模型偏差等问题。

常用场景

经典使用场景

MIRAGE-BENCH 数据集的经典应用场景在于评估多语言检索增强生成（RAG）系统。该数据集通过结合启发式特征和大型语言模型（LLM）作为评判者，构建了一个标准化的多语言 RAG 基准。研究人员可以利用 MIRAGE-BENCH 来测试和比较不同 RAG 系统在多语言环境下的表现，特别是在生成任务中的准确性和可靠性。

衍生相关工作

MIRAGE-BENCH 数据集的推出催生了一系列相关研究工作。例如，研究人员可以基于该数据集开发新的多语言 RAG 模型，探索更高效的评估方法，或者研究如何在不同语言之间迁移和适应模型。此外，MIRAGE-BENCH 还激发了对多语言数据集构建和评估标准的进一步探讨，推动了多语言自然语言处理领域的整体发展。

数据集最近研究