allganize/RAG-Evaluation-Dataset-KO

Name: allganize/RAG-Evaluation-Dataset-KO
Creator: allganize
Published: 2024-11-22 00:21:35
License: 暂无描述

Hugging Face2024-11-22 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/allganize/RAG-Evaluation-Dataset-KO

下载链接

链接失效反馈

官方服务：

资源简介：

Allganize RAG Leaderboard数据集旨在评估韩国语RAG（检索增强生成）在五个领域（金融、公共、医疗、法律、商业）的性能。数据集包含从这些领域的PDF文档中提取的问题和目标答案，用于测试RAG模型在生成答案时的准确性和相关性。每个领域包含60个问题，问题的答案类型包括段落、表格和图像。数据集还包括自动评估方法，使用多个LLM评估工具来评估生成的答案与目标答案的匹配度。

The Allganize RAG Leaderboard dataset is designed to evaluate the performance of Korean RAG (Retrieval-Augmented Generation) across five domains (finance, public, medical, law, commerce). The dataset includes questions and target answers extracted from PDF documents in these domains, used to test the accuracy and relevance of answers generated by RAG models. Each domain contains 60 questions, with answer types including paragraphs, tables, and images. The dataset also features an automated evaluation method using multiple LLM evaluation tools to assess the match between generated answers and target answers.

提供机构：

allganize

原始信息汇总

Allganize RAG Leaderboard 数据集概述

数据集描述

Allganize RAG 리더보드는 5개 도메인(금융, 공공, 의료, 법률, 커머스)에 대해서 한국어 RAG의 성능을 평가합니다. 평가를 위해서는 공개된 문서와 질문, 답변 같은 데이터 셋이 필요하지만, 자체 구축은 시간과 비용이 많이 드는 일입니다. 이제 올거나이즈는 RAG 평가 데이터를 모두 공개합니다.

数据集组成

域

다양한 도메인 중, 다섯개를 선택해 성능 평가를 진행했습니다.

finance(금융)
public(공공)
medical(의료)
law(법률)
commerce(커머스)

文档

도메인별로 PDF 문서를 수집하여 질문들을 생성했습니다. 각 도메인별 문서의 페이지 수 총합이 2~300개가 되도록 문서들을 수집했습니다. 각 문서의 이름, 페이지 수, 링크 또한 documents.csv 파일을 다운받으면 확인하실 수 있습니다.

问题和目标答案

문서의 페이지 내용을 보고 사용자가 할만한 질문 및 답변들을 생성했습니다. 각 도메인별로 60개의 질문들을 가지고 있습니다.

上下文类型

문서의 페이지를 보고 여기에서 나올 수 있는 질문들을 생성했습니다. 이때 질문에 대한 답변 내용이 문단(paragraph)인지, 테이블(table)인지, 이미지(image)인지를 구분했습니다. 각 질문별 답변 내용이 들어 있는 유형을 context_type이라 하여 컬럼을 추가해두었습니다.

数据集统计

文档数量

finance: 10개 (301 page)
public: 12개 (258 page)
medical: 20개 (276 page)
law: 12개 (291 page)
commerce: 9개 (211 page)

上下文类型比例

domain	paragraph	table	image
finance	30 (50%)	20 (33%)	10 (17%)
public	40 (67%)	15 (25%)	5 (8%)
medical	45 (75%)	10 (17%)	5 (8%)
law	40 (67%)	15 (25%)	5 (8%)
commerce	38 (64%)	17 (28%)	5 (8%)

数据集评估

自动评估方法

성능 평가 방법은 RAG에서 생성한 답변과 정답 답변을 기반으로 LLM을 사용해 평가합니다. 총 5개의 LLM Eval을 사용했습니다. 각 LLM Eval을 사용해 5개의 평가 결과 중 O가 3개 이상인 경우 O으로, 2개 이하이면 X로 평가했습니다.

评估结果

RAG Leaderboard의 결과는 영어로만 답변을 생성한 경우, 정답에서 제외시켰습니다. 생성 답변에 한국어가 하나라도 들어있을 경우는, 한국어 답변으로 포함시켰습니다.

评估模型

RAG	금융	공공	의료	법률	커머스	Average	노트
Alli (claude3-opus)	0.85 (51/60)	0.9 (54/60)	0.95 (57/60)	0.917 (55/60)	0.833 (50/60)	0.89 (267/300)
Alli (claude3.5-sonnet)	0.867 (52/60)	0.917 (55/60)	0.9 (54/60)	0.883 (53/60)	0.85 (51/60)	0.883 (265/300)
Alli (gpt-4)	0.867 (52/60)	0.9 (54/60)	0.933 (56/60)	0.883 (53/60)	0.783 (47/60)	0.873 (262/300)
Alli (gpt-4-turbo)	0.833 (50/60)	0.883 (53/60)	0.9 (54/60)	0.883 (53/60)	0.833 (50/60)	0.867 (260/300)
Alli (gpt-4o)	0.833 (50/60)	0.867 (52/60)	0.9 (54/60)	0.833 (50/60)	0.817 (49/60)	0.85 (255/300)
OpenAI Assistant (gpt-4-turbo)	0.6 (36/60)	0.917 (55/60)	0.867 (52/60)	0.833 (50/60)	0.833 (50/60)	0.81 (243/300)
Upstage (gpt-4-turbo)	0.717 (43/60)	0.9 (54/60)	0.917 (55/60)	0.65 (39/60)	0.817 (49/60)	0.8 (240/300)
OpenAI Assistant (gpt-4)	0.783 (47/60)	0.9 (54/60)	0.867 (52/60)	0.6 (36/60)	0.833 (50/60)	0.797 (239/300)
Alli (alpha_f_v2_eeve)	0.75 (45/60)	0.8 (48/60)	0.75 (45/60)	0.867 (52/60)	0.8 (48/60)	0.793 (238/300)
Alli (Llama-3-Alpha-Ko-8B-Evo)	0.717 (43/60)	0.783 (47/60)	0.717 (43/60)	0.867 (52/60)	0.75 (45/60)	0.767 (230/300)
Upstage (gpt-4)	0.7 (42/60)	0.833 (50/60)	0.867 (52/60)	0.6 (36/60)	0.817 (49/60)	0.763 (229/300)
Upstage (solar)	0.667 (40/60)	0.75 (45/60)	0.8 (48/60)	0.583 (35/60)	0.783 (47/60)	0.717 (215/300)
Langchain (gpt-4-turbo)	0.683 (41/60)	0.617 (37/60)	0.75 (45/60)	0.633 (38/60)	0.733 (44/60)	0.683 (205/300)
Upstage (gpt-3.5-turbo)	0.667 (40/60)	0.733 (44/60)	0.717 (43/60)	0.517 (31/60)	0.717 (43/60)	0.67 (201/300)
Cohere (command-r)	0.633 (38/60)	0.717 (43/60)	0.583 (35/60)	0.617 (37/60)	0.767 (46/60)	0.663 (199/300)
Cohere (command-r-plus)	0.583 (35/60)	0.717 (43/60)	0.5 (30/60)	0.583 (35/60)	0.783 (47/60)	0.633 (190/300)
Langchain (gpt-3.5-turbo)	0.617 (37/60)	0.417 (25/60)	0.583 (35/60)	0.5 (30/60)	0.617 (37/60)	0.547 (164/300)
Anything LLM (gpt-4-turbo)	0.45 (27/60)	0.183 (11/60)	0.683 (41/60)	0.317 (19/60)	0.467 (28/60)	0.42 (126/300)
Anything LLM (claude3-opus)	0.317 (19/60)	0.083 (5/60)	0.7 (42/60)	0.4 (24/60)	0.533 (32/60)	0.407 (122/300)
Alli (meta-llama3)	0.433 (26/60)	0.383 (23/60)	0.3 (18/60)	0.383 (23/60)	0.4 (24/60)	0.38 (114/300)	잦은 영어 답변 생성 [1]
Anything LLM (gpt-3.5-turbo)	0.383 (23/60)	0.2 (12/60)	0.35 (21/60)	0.333 (20/60)	0.467 (28/60)	0.347 (104/300)

[1] Alli (meta-llama)에서 영어 답변 상관 없이 성능을 측정했을 때, 아래와 같이 나온다. 금융: 0.783(47/60), 공공: 0.8(48/60), 의료: 0.766(46/60), 법률: 0.733(44/60), 커머스: 0.766(46/60), 평균: 0.77(231/300) meta-llama에 한국어로 답변하라는 instruct를 주면, 한자와 hallucination을 생성하는 경향을 보이기도 한다.

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要包括以下几个步骤：首先，从五个不同的领域（金融、公共、医疗、法律和商业）收集了PDF文档，并确保每个领域的文档页数在200至300页之间。其次，根据文档内容生成了用户可能提出的问题和相应的答案。最后，对每个问题进行了分类，根据其依据是段落、表格还是图像进行标记。通过这种方式，数据集不仅涵盖了不同类型的问题，而且反映了实际使用场景中可能遇到的多样性问题。

特点

该数据集的特点在于其广泛性和实用性。首先，它涵盖了五个不同的领域，这为评估RAG系统在不同专业领域中的应用提供了基础。其次，数据集中包含的问题类型多样，包括基于段落、表格和图像的问题，这有助于评估RAG系统处理不同类型信息的能力。最后，数据集提供了自动评估机制，使用多个LLM Eval进行评估，并通过投票决定最终答案，这为研究提供了客观的性能评估标准。

使用方法

使用该数据集的方法主要包括以下几个步骤：首先，下载并准备数据集，包括文档、问题和答案。其次，根据数据集的特点，设计适合的RAG系统评估方案。然后，将文档上传到RAG系统中，并使用系统生成答案。接下来，将生成的答案与数据集中的答案进行比较，以评估系统的性能。最后，根据评估结果，对RAG系统进行优化和改进。

背景与挑战

背景概述

在当前人工智能技术的快速发展中，知识密集型任务自动化（RAG）成为了研究的热点。RAG技术旨在通过整合外部知识库，使得语言模型能够更好地理解和回答问题。然而，在韩国语环境中，对于不同领域、不同文档类型和不同问题形式的RAG性能评估却相对缺乏。为了填补这一空白，Allganize公司于2024年8月9日发布了RAG-Evaluation-Dataset-KO数据集。该数据集由Allganize的研究团队创建，旨在为韩国语RAG模型提供一个全面的性能评估标准。数据集包含了五个领域的文档，包括金融、公共、医疗、法律和商业，每个领域都有60个问题及其答案，以及文档中每个问题的上下文类型（段落、表格或图像）。该数据集的发布对于推动韩国语RAG技术的发展具有重要意义。

当前挑战

尽管RAG-Evaluation-Dataset-KO数据集为韩国语RAG模型的评估提供了一个重要的工具，但在实际应用中仍然面临着一些挑战。首先，RAG模型在处理文档中的表格和图像信息时，其回答的准确性通常较低。其次，构建一个全面的RAG评估系统需要大量的时间和成本。此外，当前公开的RAG评估系统中，还没有一个完全由韩国语构建的、能够全面评估RAG三个主要组成部分（解析器、检索器和生成器）的评估系统。最后，基于LLM的自动评估方法存在一定的误差率，需要进一步提高其准确性。

常用场景

经典使用场景

在多模态知识蒸馏领域，RAG（Retrieval-Augmented Generation）模型因其能够结合外部知识和生成能力而备受关注。然而，传统的RAG模型在处理包含表格和图像的文档时表现不佳。针对这一问题，Allganize RAG Evaluation Dataset-KO数据集应运而生。该数据集旨在评估韩国语RAG模型在金融、公共、医疗、法律和商业五个领域中的性能。它包含多个领域的文档、针对这些文档设计的60个问题以及相应的答案。通过使用该数据集，研究人员和开发者可以评估和比较不同RAG模型在不同领域和文档类型中的表现，从而推动RAG技术在多模态知识蒸馏领域的进一步发展。

解决学术问题

Allganize RAG Evaluation Dataset-KO数据集解决了传统RAG模型在处理包含表格和图像的文档时表现不佳的问题。该数据集涵盖了金融、公共、医疗、法律和商业五个领域，并提供了针对这些领域文档设计的60个问题以及相应的答案。这使得研究人员和开发者能够评估和比较不同RAG模型在不同领域和文档类型中的表现，从而推动RAG技术在多模态知识蒸馏领域的进一步发展。此外，该数据集还提供了自动评估工具，使得评估过程更加高效和便捷。

衍生相关工作

Allganize RAG Evaluation Dataset-KO数据集的发布对相关领域的研究产生了积极的影响。首先，该数据集为评估和比较不同RAG模型在不同领域和文档类型中的表现提供了标准化的基准，促进了RAG技术的进一步发展。其次，该数据集的发布也激发了更多研究人员和开发者关注RAG技术在多模态知识蒸馏领域的应用，推动了相关技术的创新和发展。此外，自动评估工具的使用也为相关领域的研究提供了更加高效和便捷的评估方法，进一步促进了研究的深入和拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集