five

QE-RAG

收藏
arXiv2025-04-05 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.04062v1
下载链接
链接失效反馈
官方服务:
资源简介:
QE-RAG数据集是由中国人民大学 Gaoling School of Artificial Intelligence的研究团队创建的,旨在评估在查询输入错误的情况下检索增强生成的鲁棒性。该数据集在六个广泛使用的数据集的基础上构建,包括四种直接问答数据集和两种多跳问答数据集,通过注入三种常见的查询输入错误(键盘邻近错误、视觉相似错误和拼写错误)来模拟真实世界中的用户查询行为。数据集分为20%和40%的错误率版本,以模拟不同级别的噪声环境。

The QE-RAG dataset was developed by the research team from the Gaoling School of Artificial Intelligence, Renmin University of China, with the goal of evaluating the robustness of retrieval-augmented generation (RAG) systems when faced with erroneous query inputs. This dataset is built upon six widely adopted datasets, including four direct question answering (QA) datasets and two multi-hop question answering datasets. Three common types of query input errors—keyboard proximity errors, visual similarity errors, and spelling errors—are injected to simulate real-world user query behaviors. The dataset is provided in two versions with error rates of 20% and 40% respectively, to mimic noise environments of varying severity.
提供机构:
中国人民大学
创建时间:
2025-04-05
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索与自然语言处理领域,检索增强生成(RAG)技术已成为提升大语言模型事实准确性的重要手段。然而,现有研究普遍假设用户查询无错误输入,忽略了实际场景中常见的键盘邻近错误、视觉相似错误和拼写错误。为填补这一空白,QE-RAG数据集通过系统化注入三类典型查询错误构建而成。研究团队选取了六个广泛使用的RAG基准数据集(包括TriviaQA、Natural Questions等),利用nlpaug工具以3:1:1的比例随机注入错误,并保留原始标注以维持信息需求不变性。通过设置20%和40%两种错误率,该数据集模拟了真实场景中不同噪声水平下的用户查询行为。
特点
QE-RAG作为首个专注于查询输入错误的RAG基准,具有三大核心特征:其一,覆盖键盘邻近、视觉相似和拼写错误三类真实场景高频错误类型,通过动态字符替换策略保持查询句法结构不变;其二,采用双噪声层级设计(20%/40%错误率),支持模型在渐进噪声环境下的鲁棒性评估;其三,基于六大多跳问答和直接问答数据集构建,包含12,576至14,267条查询,平均字符长度37.1-94.5字符,确保数据分布的多样性和评估的全面性。实验表明,错误注入后查询平均词数变化不足0.3,有效平衡了噪声引入与语义保真度。
使用方法
使用QE-RAG需遵循三步评估框架:首先加载原始数据集与对应错误注入版本,通过标准F1分数、精确匹配(EM)和准确率(Acc)指标进行多维度评测;其次可选择对比学习训练的鲁棒检索器(如BGE-base-en-v1.5)或检索增强的查询校正方法(RA-QCG),后者结合LoRA微调技术缓解LLM过校正问题;最后支持模块化集成现有RAG方法(如HyDE、Iter-Retgen),通过Python框架实现跨域评估。研究证实,在Llama3-8B和Qwen2-7B模型上,该数据集能有效暴露传统RAG方法面对错误查询时性能下降达34.7%的缺陷,同时验证所提方法可使F1分数提升12.6%。
背景与挑战
背景概述
QE-RAG(Query Entry Errors in Retrieval-Augmented Generation)是由中国人民大学高瓴人工智能学院与快手科技等机构的研究团队于2024年提出的创新性基准数据集。该数据集聚焦检索增强生成(RAG)系统中长期被忽视的用户查询输入错误问题,首次系统性地模拟了键盘邻近错误、视觉相似错误和拼写错误三类常见输入错误场景。基于TriviaQA、Natural Questions等六个主流QA数据集,研究团队通过nlpaug工具注入20%和40%两种错误率构建了噪声环境,填补了现有RAG评估体系在真实用户交互场景下的研究空白。作为首个面向查询容错的RAG基准,QE-RAG为提升大语言模型在非理想输入条件下的鲁棒性提供了重要研究平台,推动了人机交互系统实用化进程。
当前挑战
QE-RAG主要应对两大核心挑战:在领域问题层面,现有RAG方法普遍假设用户查询无错误,导致在面对真实场景中的输入错误时性能显著下降。数据集通过构建噪声查询环境,系统评估模型对键盘输入偏差、OCR识别误差等现实噪声的容错能力。在构建技术层面,研究团队需解决错误注入的语义保持难题——在引入拼写变异(如'jeseica')和视觉混淆(如'r→n')时确保原始查询意图不变,同时维持句法结构的完整性。此外,跨数据集错误分布的均衡性控制、对比学习训练中正负样本的优化配置,以及检索增强的查询校正方法中过修正风险的规避,都是构建过程中需要攻克的关键技术难点。
常用场景
经典使用场景
在自然语言处理和信息检索领域,QE-RAG数据集主要用于评估检索增强生成(RAG)模型在用户查询存在输入错误时的鲁棒性。该数据集通过模拟键盘邻近错误、视觉相似错误和拼写错误等常见查询输入错误,为研究人员提供了一个标准化的测试环境。在经典使用场景中,研究者可以利用QE-RAG来比较不同RAG方法在处理错误查询时的性能差异,从而推动更鲁棒的检索增强生成技术的发展。
解决学术问题
QE-RAG数据集解决了当前RAG研究中一个被忽视的重要问题:用户查询输入错误的普遍存在及其对系统性能的影响。传统RAG基准测试通常假设查询是无错误的,这与现实应用场景存在显著差距。该数据集通过系统地引入不同类型的查询错误,使研究者能够量化错误查询对模型输出的影响,并开发相应的纠错和鲁棒性增强方法。这一创新填补了RAG研究领域的重要空白,为评估和改进模型在真实场景中的表现提供了科学依据。
衍生相关工作
QE-RAG数据集已经催生了一系列相关研究工作,主要包括两个方向:基于对比学习的鲁棒检索器训练方法和检索增强的查询校正方法。前者通过对比正确查询和错误查询的嵌入表示,使检索器能够从错误查询中恢复相关文档;后者则利用检索到的文档辅助大型语言模型进行更准确的查询校正。这些方法不仅显著提升了现有RAG系统的鲁棒性,而且与标准RAG、HyDE、REPLUG等主流方法具有良好的兼容性,形成了该领域新的技术演进方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作