five

lyon-nlp/summarization-summeval-fr-p2p

收藏
Hugging Face2024-06-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lyon-nlp/summarization-summeval-fr-p2p
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是SummEval的法语翻译版本,使用DeepL从英语翻译成法语,并通过LLM对翻译质量进行评分,手动修正了评分低于9/10的样本。数据集用于评估法语文本摘要的质量,包含来自100篇新闻文章的摘要,每个摘要由16个模型生成,并由5个独立众包工作者和3个独立专家进行注释。摘要评估包括四个维度:连贯性、一致性、流畅性和相关性。每个新闻文章还附带了来自CNN/DailyMail数据集的原始参考摘要和11个额外的众包参考摘要。

该数据集是SummEval的法语翻译版本,使用DeepL从英语翻译成法语,并通过LLM对翻译质量进行评分,手动修正了评分低于9/10的样本。数据集用于评估法语文本摘要的质量,包含来自100篇新闻文章的摘要,每个摘要由16个模型生成,并由5个独立众包工作者和3个独立专家进行注释。摘要评估包括四个维度:连贯性、一致性、流畅性和相关性。每个新闻文章还附带了来自CNN/DailyMail数据集的原始参考摘要和11个额外的众包参考摘要。
提供机构:
lyon-nlp
原始信息汇总

SummEval FR 数据集概述

基本信息

  • 许可证:MIT
  • 任务类别:摘要生成
  • 语言:法语
  • 数据集大小:n<1K

数据集描述

  • 来源:该数据集是原始工作 SummEval 的法语翻译版本。
  • 翻译工具:使用 DeepL 从英语翻译为法语。
  • 质量控制:使用大型语言模型(LLM)对翻译质量进行评分,手动验证评分高于9/10的样本,并修正评分低于9/10的样本。同时检查了SummEval和SummEvalFr之间的ROUGE和BLEU分数的相关性。详细的质量检查信息请参考论文

数据集内容

  • 数据来源:包含100篇新闻文章的摘要,由16个模型生成,总计1600个样本。
  • 标注信息:每个摘要由5名独立众包工作者和3名独立专家进行标注,总计8次标注。
  • 评估维度:摘要的评估维度包括连贯性、一致性、流畅性和相关性。
  • 参考信息:每篇新闻文章附有来自CNN/DailyMail数据集的原始参考摘要和11个额外的众包参考摘要。

使用方法

  • 加载数据集: python from datasets import load_dataset dataset = load_dataset("lyon-nlp/summarization-summeval-fr-p2p", "test")

引用信息

  • 引用格式

    @misc{ciancone2024extending, title={Extending the Massive Text Embedding Benchmark to French}, author={Mathieu Ciancone and Imene Kerboua and Marion Schaeffer and Wissam Siblini}, year={2024}, eprint={2405.20468}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作