eval-rag
收藏arXiv2025-07-29 更新2025-07-31 收录
下载链接:
https://github.com/gmartinonQM/eval-rag
下载链接
链接失效反馈官方服务:
资源简介:
eval-rag数据集旨在评估在投资基金尽职调查中使用的RAG系统的可靠性。该数据集包括问题、答案、来源以及来自人类专家和LLM-Judge的注释。数据集旨在帮助提高工业应用中RAG系统评估协议的可靠性和可扩展性。
提供机构:
Capgemini Invent France, DiaDeep, LaMME, ENSIIE, Université Paris-Saclay
创建时间:
2025-07-29
原始信息汇总
Eval RAG 数据集概述
数据集来源
- 数据集来源于AMIAD提交的论文《Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence》。
数据集内容
- 数据集位于
data/文件夹中。 - 数据集用于复现论文中的图表。
相关代码
- 复现论文图表的代码位于
notebooks文件夹中。
环境配置
- 使用
uv工具进行环境配置。 - 需安装
pre-commit。 - 使用
jupyter notebook运行相关代码。
搜集汇总
数据集介绍

构建方式
eval-rag数据集的构建采用了多阶段严谨流程,专为评估检索增强生成(RAG)系统在金融尽调场景中的可靠性而设计。研究团队首先整合了目标企业DataCorp的300份商业文档构建知识库,随后与领域专家合作编制了涵盖财务、人力资源和IT三大主题的121个尽调问题,并按难度分级。每个问题通过RAG系统生成20组不同响应以捕捉模型随机性,最终形成包含2,420条响应的基础语料库。为提升评估精度,研究创新性地采用K-Means聚类算法对响应进行语义分层抽样,确保样本覆盖系统输出的多样性特征。
特点
该数据集的核心价值体现在其多维度的评估体系设计。除常规的响应质量指标外,特别针对金融尽调场景定制了八类故障检测维度,包括随机响应、语言错误、离题内容、引用失效等专业评估项。数据集创新性地融合了人工标注与LLM-Judge双重评估机制,其中人工标注采用三级专家复核制度确保信效度。数据匿名化处理严格遵循商业机密保护规范,对涉及企业标识的所有元数据均进行系统替换。时序维度上,通过控制温度参数生成的20组响应为研究模型稳定性提供独特观察视角。
使用方法
该数据集支持三种递进式分析方法:基础层面可通过自动化脚本计算引用准确率、语言一致性和响应率等客观指标;中级分析需结合人工标注结果评估响应相关性和事实准确性;高级研究则可运用PPI++统计推断方法,将人工标注样本与LLM-Judge结果进行贝叶斯融合,获得具有统计保证的性能评估。数据集特别配套提供标准化提示模板,确保不同研究团队能复现评估流程。对于领域迁移研究,建议使用者根据新场景特点调整聚类抽样策略和故障分类体系。
背景与挑战
背景概述
eval-rag数据集由Capgemini Invent France等机构的研究团队于2025年创建,旨在解决检索增强生成(RAG)系统在高风险领域(如金融和医疗)中的可靠性评估问题。该数据集专注于投资尽职调查场景,通过结合人类标注和LLM-Judge标注,系统性地评估RAG系统在幻觉、离题、引用失效等方面的表现。其创新性在于采用Prediction Powered Inference (PPI)方法,为工业级RAG系统提供了具有统计保证的性能评估协议,填补了生成式AI在关键业务场景中缺乏标准化评估工具的空白。
当前挑战
eval-rag数据集面临双重挑战:在领域问题层面,需解决RAG系统在金融尽职调查中产生的幻觉(12-20%短语含非事实内容)和主题漂移(IT领域仅32%回答完全相关)等核心问题;在构建层面,需平衡人类标注的高成本(3级专家复核机制)与LLM-Judge标注的偏差风险(人类与LLM标注一致率仅50-88%),同时处理多语言响应(法语问题生成英语回答)和随机性响应(温度参数导致的回答变异)等技术难题。数据集构建还涉及文档匿名化、多轮响应生成(每问题20次重复)和语义聚类采样等复杂流程。
常用场景
经典使用场景
eval-rag数据集在检索增强生成(RAG)系统的评估中具有重要应用,特别是在高风险领域如金融和医疗。该数据集通过结合人类标注和LLM-Judge标注,系统性地评估RAG系统在生成响应时的可靠性,包括幻觉、离题、引用错误等问题。其经典使用场景包括投资基金的尽职调查,帮助分析复杂的公司文档和财务报告,确保生成的信息准确且基于可验证的知识库。
实际应用
在实际应用中,eval-rag数据集被用于评估和改进虚拟助手在金融尽职调查中的表现。例如,投资基金利用该数据集优化其RAG系统,确保生成的响应在财务、法律和运营分析中具有高准确性和可靠性。通过识别和纠正系统中的幻觉和离题问题,该数据集帮助企业在高风险决策中减少信息误差,提升自动化文档分析的效率和信任度。
衍生相关工作
eval-rag数据集衍生了一系列相关研究,特别是在RAG系统评估和幻觉检测领域。相关工作包括MEMERAG,一个多语言端到端元评估基准,以及RAGTruth,专注于检索增强语言模型的可信度评估。此外,该数据集的评估协议还启发了基于PPI(Prediction Powered Inference)和ASI(Active Statistical Inference)的混合评估方法,进一步推动了生成式AI系统评估的科学化和标准化。
以上内容由遇见数据集搜集并总结生成



