RAG-Evaluation-Dataset-JA
收藏Hugging Face2024-09-13 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/allganize/RAG-Evaluation-Dataset-JA
下载链接
链接失效反馈官方服务:
资源简介:
Allganize RAG Leaderboard数据集用于评估RAG模型在五个行业领域(金融、信息通信、制造业、公共、流通·小零售)的性能。数据集包括各行业领域的PDF文档、对应的提问和正确答案,以及用于自动性能评估的方法和工具。
提供机构:
allganize
创建时间:
2024-09-03
原始信息汇总
Allganize RAG Evaluation Dataset-JA
概述
Allganize RAG Leaderboard 是一个在日本语环境下对RAG(Retrieval-Augmented Generation)性能进行评估的项目。评估涵盖了五个行业领域:金融、信息通信、制造业、公共、流通·零售。该数据集旨在帮助企业在其特定行业领域、文档类型和提问形式下评估日本语RAG的性能。
数据集内容
行业领域
数据集包含以下五个行业领域的评估数据:
- 金融(finance)
- 信息通信(it)
- 制造业(manufacturing)
- 公共(public)
- 流通·零售(retail)
文档
每个行业领域收集了PDF文档,并基于这些文档生成问题。每个领域文档的总页数在2到300页之间。文档的名称、页数和链接信息可以在documents.csv文件中查看。
问题与答案
基于文档内容生成问题和答案。每个行业领域包含60个问题及其对应的答案。
上下文类型
问题和答案的上下文类型包括段落(paragraph)、表格(table)和图像(image)。各领域上下文类型的比例如下:
| 领域 | 段落(paragraph) | 表格(table) | 图像(image) |
|---|---|---|---|
| 金融 | 22 (36%) | 19 (31%) | 19 (31%) |
| 信息通信 | 29 (48%) | 18 (30%) | 13 (21%) |
| 制造业 | 31 (51%) | 15 (25%) | 14 (23%) |
| 公共 | 30 (50%) | 15 (25%) | 15 (25%) |
| 流通·零售 | 30 (50%) | 16 (26%) | 14 (23%) |
性能评估
性能评估基于RAG生成的回答与正确答案进行比较。评估使用了四种LLM Eval方法,并通过投票决定结果。评估方法包括:
- TonicAI:answer_similarity (threshold=4)
- MLflow:answer_similarity/v1/score (threshold=4)
- MLflow:answer_correctness/v1/score (threshold=4)
- Allganize Eval:answer_correctness/claude3-opus
RAG解决方案
数据集评估了以下RAG解决方案的性能:
- Alli
- LangChain
- OpenAI Assistant
- Cohere
贡献者
- Junghoon Lee (junghoon.lee@allganize.ai)
- Akiko Oshio (akiko.oshio@allganize.io)
- Sounghan Kim (sounghan.kim@allganize.ai)
- Yujung Kim (yujung.kim@allganize.ai)
搜集汇总
数据集介绍

构建方式
RAG-Evaluation-Dataset-JA数据集的构建基于五个行业领域(金融、信息通信、制造、公共、流通与零售),通过收集各领域的PDF文档并从中生成问题和答案。每个领域包含60个问题及其对应的正确答案,问题类型涵盖段落、表格和图像等多种形式。文档的选择和问题的设计旨在反映实际业务场景,确保数据集能够全面评估RAG系统在不同行业中的表现。
特点
该数据集的特点在于其多样性和行业针对性。它不仅涵盖了多个行业领域,还通过自动性能评估方法对RAG系统的表现进行了量化分析。数据集中的问题类型丰富,包括段落、表格和图像等多种形式,能够全面测试RAG系统在不同上下文中的表现。此外,数据集的构建还考虑了文档的复杂性和实际业务需求,确保了其在实际应用中的实用性。
使用方法
RAG-Evaluation-Dataset-JA数据集的使用方法主要包括下载数据集文件并加载到本地环境中。用户可以通过提供的Colab链接进行自动性能评估,使用LLM模型对RAG系统生成的回答与标准答案进行对比分析。数据集还支持用户根据具体需求调整评估参数,如相似度阈值等,以进一步优化评估结果。此外,用户还可以参考数据集中的文档和问题设计,构建自己的RAG评估框架。
背景与挑战
背景概述
RAG-Evaluation-Dataset-JA 是由 Allganize 公司创建的一个专注于日语检索增强生成(RAG)性能评估的数据集。该数据集于近期发布,旨在解决企业在实际应用中遇到的 RAG 性能问题,尤其是在金融、信息通信、制造业、公共部门和零售等五大行业领域。Allganize 通过提供包含验证文档、问题和答案的数据集,帮助企业评估 RAG 系统在复杂文档处理中的表现。该数据集的发布填补了日语 RAG 综合评估领域的空白,为相关研究和应用提供了重要参考。
当前挑战
RAG-Evaluation-Dataset-JA 面临的挑战主要体现在两个方面。首先,RAG 系统在处理复杂文档(如图表、表格和图像)时表现不佳,尤其是在多行业领域的特定文档类型和问题形式上。其次,数据集的构建过程中,如何确保文档的多样性和问题的代表性是一个关键挑战。Allganize 通过收集不同行业的 PDF 文档并生成相应的问题和答案,力求覆盖广泛的上下文类型(如段落、表格和图像),但自动评估方法仍存在约 5% 的误差率,这需要在未来的研究中进一步优化。
常用场景
经典使用场景
RAG-Evaluation-Dataset-JA数据集在自然语言处理领域,特别是在检索增强生成(RAG)系统的性能评估中,具有重要的应用价值。该数据集通过涵盖金融、信息通信、制造业、公共事业以及流通零售等多个行业领域的文档和问题,为研究者提供了一个全面的基准测试平台。通过这一数据集,研究者能够评估不同RAG系统在处理复杂文档和多样化问题时的表现,从而推动RAG技术的进一步发展。
实际应用
在实际应用中,RAG-Evaluation-Dataset-JA数据集为企业提供了一个可靠的基准,用于评估和选择适合其业务需求的RAG解决方案。通过该数据集,企业能够了解不同RAG系统在特定行业中的表现,从而做出更明智的技术选择。此外,该数据集还为RAG系统的开发者和研究者提供了一个标准化的测试平台,帮助他们优化系统性能,提升用户体验。
衍生相关工作
RAG-Evaluation-Dataset-JA数据集的发布,推动了多篇相关研究工作的产生。例如,基于该数据集的研究工作探讨了如何通过改进检索和生成模块来提升RAG系统在复杂文档处理中的表现。此外,该数据集还激发了关于多语言RAG系统的研究,特别是在日语等非英语语言环境下的性能优化。这些研究工作不仅丰富了RAG技术的研究内容,也为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成



