five

deutsche-telekom/Ger-RAG-eval

收藏
Hugging Face2024-08-23 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/deutsche-telekom/Ger-RAG-eval
下载链接
链接失效反馈
官方服务:
资源简介:
German RAG LLM Evaluation Dataset是一个用于评估德语RAG(检索增强生成)能力的LLM模型的数据集。该数据集基于deutsche-telekom/wikipedia-22-12-de-dpr的测试集,包含4个子任务,每个任务有1000个提示。任务包括根据问题选择上下文、根据上下文选择问题、判断上下文是否能回答问题以及判断答案是否与问题匹配。数据集的使用方法包括通过LightEval进行评估,并提供了详细的评估结果和许可信息。

The German RAG LLM Evaluation Dataset is a benchmark dataset for evaluating the Retrieval-Augmented Generation (RAG) capabilities of Large Language Models (LLMs) in German. It is built upon the test split of the deutsche-telekom/wikipedia-22-12-de-dpr corpus, and includes four subtasks each containing 1000 prompts. The subtasks cover: selecting relevant context given a query, selecting a matching query based on a provided context, determining whether a given context can answer a specified query, and verifying whether a generated answer matches the corresponding query. Usage guidelines for this dataset include conducting evaluations via LightEval, with detailed evaluation results and license information provided alongside.
提供机构:
deutsche-telekom
原始信息汇总

数据集概述

基本信息

  • 名称: German RAG LLM Evaluation Dataset
  • 许可证: CC BY-SA 4.0
  • 语言: 德语
  • 大小: 1K<n<10K

数据结构

  • 配置:
    • task1: 包含文件 task1_test.parquet
    • task2: 包含文件 task2_test.parquet
    • task3: 包含文件 task3_test.parquet
    • task4: 包含文件 task4_test.parquet

任务描述

  • 任务1 (choose_question_by_context): 给定一个上下文和四个问题,任务是决定哪个问题可以通过上下文回答。
  • 任务2 (choose_context_by_question): 给定一个问题和四个上下文,任务是决定哪个上下文可以回答这个问题。
  • 任务3 (question_answer_match): 给定一个问题和一个答案,任务是决定这个答案是否真正回答了问题。
  • 任务4 (context_question_match): 给定一个上下文和一个问题,任务是决定这个问题是否可以通过上下文回答。

使用情况

  • 评估工具: 使用 LightEval 进行评估。
  • 评估结果: 评估结果显示不同模型的性能,具体数据可参考提供的表格。

版权信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作