lyon-nlp/summarization-summeval-fr-p2p

Name: lyon-nlp/summarization-summeval-fr-p2p
Creator: lyon-nlp
Published: 2024-06-12 13:33:23
License: 暂无描述

Hugging Face2024-06-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lyon-nlp/summarization-summeval-fr-p2p

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是SummEval的法语翻译版本，使用DeepL从英语翻译成法语，并通过LLM对翻译质量进行评分，手动修正了评分低于9/10的样本。数据集用于评估法语文本摘要的质量，包含来自100篇新闻文章的摘要，每个摘要由16个模型生成，并由5个独立众包工作者和3个独立专家进行注释。摘要评估包括四个维度：连贯性、一致性、流畅性和相关性。每个新闻文章还附带了来自CNN/DailyMail数据集的原始参考摘要和11个额外的众包参考摘要。

提供机构：

lyon-nlp

原始信息汇总

SummEval FR 数据集概述

基本信息

许可证：MIT
任务类别：摘要生成
语言：法语
数据集大小：n<1K

数据集描述

来源：该数据集是原始工作 SummEval 的法语翻译版本。
翻译工具：使用 DeepL 从英语翻译为法语。
质量控制：使用大型语言模型（LLM）对翻译质量进行评分，手动验证评分高于9/10的样本，并修正评分低于9/10的样本。同时检查了SummEval和SummEvalFr之间的ROUGE和BLEU分数的相关性。详细的质量检查信息请参考论文。

数据集内容

数据来源：包含100篇新闻文章的摘要，由16个模型生成，总计1600个样本。
标注信息：每个摘要由5名独立众包工作者和3名独立专家进行标注，总计8次标注。
评估维度：摘要的评估维度包括连贯性、一致性、流畅性和相关性。
参考信息：每篇新闻文章附有来自CNN/DailyMail数据集的原始参考摘要和11个额外的众包参考摘要。

使用方法

加载数据集： python from datasets import load_dataset dataset = load_dataset("lyon-nlp/summarization-summeval-fr-p2p", "test")

引用信息

引用格式：

@misc{ciancone2024extending, title={Extending the Massive Text Embedding Benchmark to French}, author={Mathieu Ciancone and Imene Kerboua and Marion Schaeffer and Wissam Siblini}, year={2024}, eprint={2405.20468}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集