XRAG

Name: XRAG
Creator: Heidelberg Institute for Theoretical Studies gGmbH, Amazon AGI
Published: 2025-05-15 16:47:55
License: 暂无描述

arXiv2025-05-15 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.10089v1

下载链接

链接失效反馈

官方服务：

资源简介：

XRAG数据集是一个新型的基准，用于评估大型语言模型在跨语言检索增强生成（RAG）场景下的生成能力。该数据集由最近的新闻文章构建，确保其问题需要外部知识才能回答，并覆盖了单语和多语检索的真实世界场景。数据集包含四种语言（阿拉伯语、中文、德语和西班牙语），以及两种检索场景（单语检索和多语检索）。每个实例包含一个问题、一个答案、两篇支持文章和六篇无关文章。XRAG数据集的构建过程包括寻找相关文章对、生成跨文档问答对、质量控制、人工翻译和收集无关文章。

The XRAG dataset is a novel benchmark for evaluating the generation capabilities of large language models (LLMs) in cross-lingual retrieval-augmented generation (RAG) scenarios. This dataset is constructed from recent news articles, ensuring that its questions require external knowledge to answer, and covers real-world scenarios of monolingual and multilingual retrieval. The dataset includes four languages (Arabic, Chinese, German, and Spanish) and two retrieval scenarios: monolingual retrieval and multilingual retrieval. Each instance consists of one question, one answer, two supporting articles, and six irrelevant articles. The construction process of the XRAG dataset includes identifying relevant article pairs, generating cross-document question-answer pairs, quality control, manual translation, and collecting irrelevant articles.

提供机构：

Heidelberg Institute for Theoretical Studies gGmbH, Amazon AGI

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

XRAG数据集的构建采用了多语言新闻文章作为基础数据源，通过创新的跨文档问答生成流程，确保问题需要外部知识才能回答。首先，研究人员从2024年6月至11月的新闻文章中筛选出超过1200个词条的英文、德文、西班牙文、中文和阿拉伯文文章。接着，利用基于大型语言模型（LLM）的工作流程生成跨文档问题，这些问题需要从两篇相关文章中整合信息才能解答。为确保问题质量，团队进行了严格的人工质量控制和翻译工作，最终构建了包含支持性文章和干扰性文章的高质量数据集。

使用方法

XRAG数据集主要用于评估大型语言模型在跨语言检索增强生成（RAG）场景中的表现。研究人员可通过两种设置使用该数据集：单语检索（所有文档为英文）和多语检索（文档包含英文和问题语言）。使用时，模型需根据提供的支持性文章回答问题，同时忽略干扰性文章。评估指标包括回答的准确性和语言正确性，采用LLM-as-a-Judge方法进行自动评分，并结合语言检测工具确保回答语言与问题一致。该数据集还可用于研究模型在不同语言对（如德英、中英）下的表现差异，以及探索跨语言推理的挑战。

背景与挑战

背景概述

XRAG（Cross-lingual Retrieval-Augmented Generation）是由Heidelberg Institute for Theoretical Studies与Amazon AGI团队于2025年提出的创新性基准数据集，旨在评估大型语言模型（LLMs）在跨语言检索增强生成（RAG）场景下的性能。该数据集基于2024年6月至11月的多语言新闻文章构建，覆盖德语、西班牙语、中文和阿拉伯语，通过严格的LLM驱动流程生成需跨文档推理的复杂问题，并配备相关性标注的检索文档。XRAG填补了现有跨语言开放域问答数据集的空白，其核心研究问题聚焦于LLMs在用户语言与检索结果语言不匹配时的生成能力，尤其关注单语检索下的响应语言正确性（如德语查询需基于英语文档生成德语回答）与多语检索下的跨语言推理挑战。该数据集通过模拟真实场景中不完美的检索环境，为研究LLMs的推理能力与跨语言处理机制提供了标准化评估框架。

当前挑战

XRAG针对的领域挑战主要体现在两方面：其一，跨语言RAG任务中，现有LLMs面临单语检索场景下响应语言正确性不足（如模型错误输出英语而非目标语言），以及多语检索场景下跨语言信息整合的推理困难（如需融合中英文文档回答中文问题）；其二，数据集构建过程中需克服多语言新闻对齐、复杂问题生成与质量控制的难题，包括通过实体关联图与多语言稠密检索器筛选相关文档对，设计三阶段LLM工作流生成需聚合、比较或多跳推理的问题，并采用专业翻译与人工验证确保问答对的事实准确性与语言自然度。此外，数据集的噪声控制（如8%模糊问题）与评估方法设计（如LLM-as-Judge的自我偏好规避）也构成显著挑战。

常用场景

经典使用场景

XRAG数据集在跨语言检索增强生成（RAG）领域中被广泛用于评估大型语言模型（LLM）在多语言环境下的生成能力。该数据集通过构建基于新闻文章的自然问题，要求模型在用户语言与检索文档语言不匹配的情况下进行复杂推理和跨文档信息整合。经典使用场景包括单语言检索和多语言检索任务，其中模型需分别处理仅英文文档或混合语言文档以生成目标语言的回答。

解决学术问题

XRAG解决了跨语言RAG研究中缺乏高质量基准数据集的问题，填补了现有数据集在复杂多语言推理和真实场景模拟上的空白。其通过严格设计的问答对和干扰文档，量化了LLMs在跨语言信息整合、响应语言正确性及多语言推理等方面的性能瓶颈，揭示了模型在非英语生成之外的深层挑战，如跨语言逻辑推理能力不足。

实际应用

该数据集可直接应用于全球化智能客服、多语言知识库问答系统等实际场景。例如，企业可通过XRAG评估其RAG系统在处理非英语用户查询时，结合英文内部知识库与本地语言资源的能力。此外，XRAG的构建方法为动态生成需外部知识的跨语言问答对提供了可复用的技术框架。

数据集最近研究