deutsche-telekom/Ger-RAG-eval

Name: deutsche-telekom/Ger-RAG-eval
Creator: deutsche-telekom
Published: 2024-08-23 11:10:52
License: 暂无描述

Hugging Face2024-08-23 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/deutsche-telekom/Ger-RAG-eval

下载链接

链接失效反馈

官方服务：

资源简介：

German RAG LLM Evaluation Dataset是一个用于评估德语RAG（检索增强生成）能力的LLM模型的数据集。该数据集基于deutsche-telekom/wikipedia-22-12-de-dpr的测试集，包含4个子任务，每个任务有1000个提示。任务包括根据问题选择上下文、根据上下文选择问题、判断上下文是否能回答问题以及判断答案是否与问题匹配。数据集的使用方法包括通过LightEval进行评估，并提供了详细的评估结果和许可信息。

The German RAG LLM Evaluation Dataset is a benchmark dataset for evaluating the Retrieval-Augmented Generation (RAG) capabilities of Large Language Models (LLMs) in German. It is built upon the test split of the deutsche-telekom/wikipedia-22-12-de-dpr corpus, and includes four subtasks each containing 1000 prompts. The subtasks cover: selecting relevant context given a query, selecting a matching query based on a provided context, determining whether a given context can answer a specified query, and verifying whether a generated answer matches the corresponding query. Usage guidelines for this dataset include conducting evaluations via LightEval, with detailed evaluation results and license information provided alongside.

提供机构：

deutsche-telekom

原始信息汇总

数据集概述

基本信息

名称: German RAG LLM Evaluation Dataset
许可证: CC BY-SA 4.0
语言: 德语
大小: 1K<n<10K

数据结构

配置:
- task1: 包含文件 task1_test.parquet
- task2: 包含文件 task2_test.parquet
- task3: 包含文件 task3_test.parquet
- task4: 包含文件 task4_test.parquet

任务描述

任务1 (choose_question_by_context): 给定一个上下文和四个问题，任务是决定哪个问题可以通过上下文回答。
任务2 (choose_context_by_question): 给定一个问题和四个上下文，任务是决定哪个上下文可以回答这个问题。
任务3 (question_answer_match): 给定一个问题和一个答案，任务是决定这个答案是否真正回答了问题。
任务4 (context_question_match): 给定一个上下文和一个问题，任务是决定这个问题是否可以通过上下文回答。

使用情况

评估工具: 使用 LightEval 进行评估。
评估结果: 评估结果显示不同模型的性能，具体数据可参考提供的表格。

版权信息

文本版权: 根据 CC BY-SA 4.0 Deed 授权。
问题和答案版权: 由 Philip May 和 Deutsche Telekom AG 根据 CC BY-SA 4.0 Deed 授权。

5,000+

优质数据集

54 个

任务类型

进入经典数据集