deutsche-telekom/Ger-RAG-eval
收藏Hugging Face2024-08-23 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/deutsche-telekom/Ger-RAG-eval
下载链接
链接失效反馈官方服务:
资源简介:
German RAG LLM Evaluation Dataset是一个用于评估德语RAG(检索增强生成)能力的LLM模型的数据集。该数据集基于deutsche-telekom/wikipedia-22-12-de-dpr的测试集,包含4个子任务,每个任务有1000个提示。任务包括根据问题选择上下文、根据上下文选择问题、判断上下文是否能回答问题以及判断答案是否与问题匹配。数据集的使用方法包括通过LightEval进行评估,并提供了详细的评估结果和许可信息。
The German RAG LLM Evaluation Dataset is a benchmark dataset for evaluating the Retrieval-Augmented Generation (RAG) capabilities of Large Language Models (LLMs) in German. It is built upon the test split of the deutsche-telekom/wikipedia-22-12-de-dpr corpus, and includes four subtasks each containing 1000 prompts. The subtasks cover: selecting relevant context given a query, selecting a matching query based on a provided context, determining whether a given context can answer a specified query, and verifying whether a generated answer matches the corresponding query. Usage guidelines for this dataset include conducting evaluations via LightEval, with detailed evaluation results and license information provided alongside.
提供机构:
deutsche-telekom
原始信息汇总
数据集概述
基本信息
- 名称: German RAG LLM Evaluation Dataset
- 许可证: CC BY-SA 4.0
- 语言: 德语
- 大小: 1K<n<10K
数据结构
- 配置:
- task1: 包含文件
task1_test.parquet - task2: 包含文件
task2_test.parquet - task3: 包含文件
task3_test.parquet - task4: 包含文件
task4_test.parquet
- task1: 包含文件
任务描述
- 任务1 (choose_question_by_context): 给定一个上下文和四个问题,任务是决定哪个问题可以通过上下文回答。
- 任务2 (choose_context_by_question): 给定一个问题和四个上下文,任务是决定哪个上下文可以回答这个问题。
- 任务3 (question_answer_match): 给定一个问题和一个答案,任务是决定这个答案是否真正回答了问题。
- 任务4 (context_question_match): 给定一个上下文和一个问题,任务是决定这个问题是否可以通过上下文回答。
使用情况
- 评估工具: 使用 LightEval 进行评估。
- 评估结果: 评估结果显示不同模型的性能,具体数据可参考提供的表格。
版权信息
- 文本版权: 根据 CC BY-SA 4.0 Deed 授权。
- 问题和答案版权: 由 Philip May 和 Deutsche Telekom AG 根据 CC BY-SA 4.0 Deed 授权。



