allganize/RAG-Evaluation-Dataset-KO
收藏Allganize RAG Leaderboard 数据集概述
数据集描述
Allganize RAG 리더보드는 5개 도메인(금융, 공공, 의료, 법률, 커머스)에 대해서 한국어 RAG의 성능을 평가합니다. 평가를 위해서는 공개된 문서와 질문, 답변 같은 데이터 셋이 필요하지만, 자체 구축은 시간과 비용이 많이 드는 일입니다. 이제 올거나이즈는 RAG 평가 데이터를 모두 공개합니다.
数据集组成
域
다양한 도메인 중, 다섯개를 선택해 성능 평가를 진행했습니다.
- finance(금융)
- public(공공)
- medical(의료)
- law(법률)
- commerce(커머스)
文档
도메인별로 PDF 문서를 수집하여 질문들을 생성했습니다. 각 도메인별 문서의 페이지 수 총합이 2~300개가 되도록 문서들을 수집했습니다. 각 문서의 이름, 페이지 수, 링크 또한 documents.csv 파일을 다운받으면 확인하실 수 있습니다.
问题和目标答案
문서의 페이지 내용을 보고 사용자가 할만한 질문 및 답변들을 생성했습니다. 각 도메인별로 60개의 질문들을 가지고 있습니다.
上下文类型
문서의 페이지를 보고 여기에서 나올 수 있는 질문들을 생성했습니다. 이때 질문에 대한 답변 내용이 문단(paragraph)인지, 테이블(table)인지, 이미지(image)인지를 구분했습니다. 각 질문별 답변 내용이 들어 있는 유형을 context_type이라 하여 컬럼을 추가해두었습니다.
数据集统计
文档数量
- finance: 10개 (301 page)
- public: 12개 (258 page)
- medical: 20개 (276 page)
- law: 12개 (291 page)
- commerce: 9개 (211 page)
上下文类型比例
| domain | paragraph | table | image |
|---|---|---|---|
| finance | 30 (50%) | 20 (33%) | 10 (17%) |
| public | 40 (67%) | 15 (25%) | 5 (8%) |
| medical | 45 (75%) | 10 (17%) | 5 (8%) |
| law | 40 (67%) | 15 (25%) | 5 (8%) |
| commerce | 38 (64%) | 17 (28%) | 5 (8%) |
数据集评估
自动评估方法
성능 평가 방법은 RAG에서 생성한 답변과 정답 답변을 기반으로 LLM을 사용해 평가합니다. 총 5개의 LLM Eval을 사용했습니다. 각 LLM Eval을 사용해 5개의 평가 결과 중 O가 3개 이상인 경우 O으로, 2개 이하이면 X로 평가했습니다.
评估结果
RAG Leaderboard의 결과는 영어로만 답변을 생성한 경우, 정답에서 제외시켰습니다. 생성 답변에 한국어가 하나라도 들어있을 경우는, 한국어 답변으로 포함시켰습니다.
评估模型
| RAG | 금융 | 공공 | 의료 | 법률 | 커머스 | Average | 노트 |
|---|---|---|---|---|---|---|---|
| Alli (claude3-opus) | 0.85 (51/60) | 0.9 (54/60) | 0.95 (57/60) | 0.917 (55/60) | 0.833 (50/60) | 0.89 (267/300) | |
| Alli (claude3.5-sonnet) | 0.867 (52/60) | 0.917 (55/60) | 0.9 (54/60) | 0.883 (53/60) | 0.85 (51/60) | 0.883 (265/300) | |
| Alli (gpt-4) | 0.867 (52/60) | 0.9 (54/60) | 0.933 (56/60) | 0.883 (53/60) | 0.783 (47/60) | 0.873 (262/300) | |
| Alli (gpt-4-turbo) | 0.833 (50/60) | 0.883 (53/60) | 0.9 (54/60) | 0.883 (53/60) | 0.833 (50/60) | 0.867 (260/300) | |
| Alli (gpt-4o) | 0.833 (50/60) | 0.867 (52/60) | 0.9 (54/60) | 0.833 (50/60) | 0.817 (49/60) | 0.85 (255/300) | |
| OpenAI Assistant (gpt-4-turbo) | 0.6 (36/60) | 0.917 (55/60) | 0.867 (52/60) | 0.833 (50/60) | 0.833 (50/60) | 0.81 (243/300) | |
| Upstage (gpt-4-turbo) | 0.717 (43/60) | 0.9 (54/60) | 0.917 (55/60) | 0.65 (39/60) | 0.817 (49/60) | 0.8 (240/300) | |
| OpenAI Assistant (gpt-4) | 0.783 (47/60) | 0.9 (54/60) | 0.867 (52/60) | 0.6 (36/60) | 0.833 (50/60) | 0.797 (239/300) | |
| Alli (alpha_f_v2_eeve) | 0.75 (45/60) | 0.8 (48/60) | 0.75 (45/60) | 0.867 (52/60) | 0.8 (48/60) | 0.793 (238/300) | |
| Alli (Llama-3-Alpha-Ko-8B-Evo) | 0.717 (43/60) | 0.783 (47/60) | 0.717 (43/60) | 0.867 (52/60) | 0.75 (45/60) | 0.767 (230/300) | |
| Upstage (gpt-4) | 0.7 (42/60) | 0.833 (50/60) | 0.867 (52/60) | 0.6 (36/60) | 0.817 (49/60) | 0.763 (229/300) | |
| Upstage (solar) | 0.667 (40/60) | 0.75 (45/60) | 0.8 (48/60) | 0.583 (35/60) | 0.783 (47/60) | 0.717 (215/300) | |
| Langchain (gpt-4-turbo) | 0.683 (41/60) | 0.617 (37/60) | 0.75 (45/60) | 0.633 (38/60) | 0.733 (44/60) | 0.683 (205/300) | |
| Upstage (gpt-3.5-turbo) | 0.667 (40/60) | 0.733 (44/60) | 0.717 (43/60) | 0.517 (31/60) | 0.717 (43/60) | 0.67 (201/300) | |
| Cohere (command-r) | 0.633 (38/60) | 0.717 (43/60) | 0.583 (35/60) | 0.617 (37/60) | 0.767 (46/60) | 0.663 (199/300) | |
| Cohere (command-r-plus) | 0.583 (35/60) | 0.717 (43/60) | 0.5 (30/60) | 0.583 (35/60) | 0.783 (47/60) | 0.633 (190/300) | |
| Langchain (gpt-3.5-turbo) | 0.617 (37/60) | 0.417 (25/60) | 0.583 (35/60) | 0.5 (30/60) | 0.617 (37/60) | 0.547 (164/300) | |
| Anything LLM (gpt-4-turbo) | 0.45 (27/60) | 0.183 (11/60) | 0.683 (41/60) | 0.317 (19/60) | 0.467 (28/60) | 0.42 (126/300) | |
| Anything LLM (claude3-opus) | 0.317 (19/60) | 0.083 (5/60) | 0.7 (42/60) | 0.4 (24/60) | 0.533 (32/60) | 0.407 (122/300) | |
| Alli (meta-llama3) | 0.433 (26/60) | 0.383 (23/60) | 0.3 (18/60) | 0.383 (23/60) | 0.4 (24/60) | 0.38 (114/300) | 잦은 영어 답변 생성 [1] |
| Anything LLM (gpt-3.5-turbo) | 0.383 (23/60) | 0.2 (12/60) | 0.35 (21/60) | 0.333 (20/60) | 0.467 (28/60) | 0.347 (104/300) |
[1] Alli (meta-llama)에서 영어 답변 상관 없이 성능을 측정했을 때, 아래와 같이 나온다. 금융: 0.783(47/60), 공공: 0.8(48/60), 의료: 0.766(46/60), 법률: 0.733(44/60), 커머스: 0.766(46/60), 평균: 0.77(231/300) meta-llama에 한국어로 답변하라는 instruct를 주면, 한자와 hallucination을 생성하는 경향을 보이기도 한다.




