five

eval-rag

收藏
arXiv2025-07-29 更新2025-07-31 收录
下载链接:
https://github.com/gmartinonQM/eval-rag
下载链接
链接失效反馈
官方服务:
资源简介:
eval-rag数据集旨在评估在投资基金尽职调查中使用的RAG系统的可靠性。该数据集包括问题、答案、来源以及来自人类专家和LLM-Judge的注释。数据集旨在帮助提高工业应用中RAG系统评估协议的可靠性和可扩展性。

The eval-rag dataset is designed to evaluate the reliability of RAG systems used in investment fund due diligence. The dataset includes questions, reference answers, source documents, as well as annotations from human experts and LLM-Judge. This dataset aims to enhance the reliability and scalability of RAG system evaluation protocols in industrial applications.
提供机构:
Capgemini Invent France, DiaDeep, LaMME, ENSIIE, Université Paris-Saclay
创建时间:
2025-07-29
原始信息汇总

Eval RAG 数据集概述

数据集来源

  • 数据集来源于AMIAD提交的论文《Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence》。

数据集内容

  • 数据集位于data/文件夹中。
  • 数据集用于复现论文中的图表。

相关代码

  • 复现论文图表的代码位于notebooks文件夹中。

环境配置

  • 使用uv工具进行环境配置。
  • 需安装pre-commit
  • 使用jupyter notebook运行相关代码。
搜集汇总
数据集介绍
main_image_url
构建方式
eval-rag数据集的构建采用了多阶段严谨流程,专为评估检索增强生成(RAG)系统在金融尽调场景中的可靠性而设计。研究团队首先整合了目标企业DataCorp的300份商业文档构建知识库,随后与领域专家合作编制了涵盖财务、人力资源和IT三大主题的121个尽调问题,并按难度分级。每个问题通过RAG系统生成20组不同响应以捕捉模型随机性,最终形成包含2,420条响应的基础语料库。为提升评估精度,研究创新性地采用K-Means聚类算法对响应进行语义分层抽样,确保样本覆盖系统输出的多样性特征。
特点
该数据集的核心价值体现在其多维度的评估体系设计。除常规的响应质量指标外,特别针对金融尽调场景定制了八类故障检测维度,包括随机响应、语言错误、离题内容、引用失效等专业评估项。数据集创新性地融合了人工标注与LLM-Judge双重评估机制,其中人工标注采用三级专家复核制度确保信效度。数据匿名化处理严格遵循商业机密保护规范,对涉及企业标识的所有元数据均进行系统替换。时序维度上,通过控制温度参数生成的20组响应为研究模型稳定性提供独特观察视角。
使用方法
该数据集支持三种递进式分析方法:基础层面可通过自动化脚本计算引用准确率、语言一致性和响应率等客观指标;中级分析需结合人工标注结果评估响应相关性和事实准确性;高级研究则可运用PPI++统计推断方法,将人工标注样本与LLM-Judge结果进行贝叶斯融合,获得具有统计保证的性能评估。数据集特别配套提供标准化提示模板,确保不同研究团队能复现评估流程。对于领域迁移研究,建议使用者根据新场景特点调整聚类抽样策略和故障分类体系。
背景与挑战
背景概述
eval-rag数据集由Capgemini Invent France等机构的研究团队于2025年创建,旨在解决检索增强生成(RAG)系统在高风险领域(如金融和医疗)中的可靠性评估问题。该数据集专注于投资尽职调查场景,通过结合人类标注和LLM-Judge标注,系统性地评估RAG系统在幻觉、离题、引用失效等方面的表现。其创新性在于采用Prediction Powered Inference (PPI)方法,为工业级RAG系统提供了具有统计保证的性能评估协议,填补了生成式AI在关键业务场景中缺乏标准化评估工具的空白。
当前挑战
eval-rag数据集面临双重挑战:在领域问题层面,需解决RAG系统在金融尽职调查中产生的幻觉(12-20%短语含非事实内容)和主题漂移(IT领域仅32%回答完全相关)等核心问题;在构建层面,需平衡人类标注的高成本(3级专家复核机制)与LLM-Judge标注的偏差风险(人类与LLM标注一致率仅50-88%),同时处理多语言响应(法语问题生成英语回答)和随机性响应(温度参数导致的回答变异)等技术难题。数据集构建还涉及文档匿名化、多轮响应生成(每问题20次重复)和语义聚类采样等复杂流程。
常用场景
经典使用场景
eval-rag数据集在检索增强生成(RAG)系统的评估中具有重要应用,特别是在高风险领域如金融和医疗。该数据集通过结合人类标注和LLM-Judge标注,系统性地评估RAG系统在生成响应时的可靠性,包括幻觉、离题、引用错误等问题。其经典使用场景包括投资基金的尽职调查,帮助分析复杂的公司文档和财务报告,确保生成的信息准确且基于可验证的知识库。
实际应用
在实际应用中,eval-rag数据集被用于评估和改进虚拟助手在金融尽职调查中的表现。例如,投资基金利用该数据集优化其RAG系统,确保生成的响应在财务、法律和运营分析中具有高准确性和可靠性。通过识别和纠正系统中的幻觉和离题问题,该数据集帮助企业在高风险决策中减少信息误差,提升自动化文档分析的效率和信任度。
衍生相关工作
eval-rag数据集衍生了一系列相关研究,特别是在RAG系统评估和幻觉检测领域。相关工作包括MEMERAG,一个多语言端到端元评估基准,以及RAGTruth,专注于检索增强语言模型的可信度评估。此外,该数据集的评估协议还启发了基于PPI(Prediction Powered Inference)和ASI(Active Statistical Inference)的混合评估方法,进一步推动了生成式AI系统评估的科学化和标准化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作