five

CATIE-AQ/orange_sum_fr_prompt_title_generation_from_an_article

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/orange_sum_fr_prompt_title_generation_from_an_article
下载链接
链接失效反馈
官方服务:
资源简介:
orange_sum_fr_prompt_title_generation_from_an_article数据集是法语提示数据集(DFP)的一个子集,包含639,521行数据,用于标题生成任务。该数据集的数据来源于orange_sum数据集,通过应用19个提示来构建输入和目标列,以匹配xP3数据集的格式。数据集分为训练集(582,521个样本)、验证集(28,500个样本)和测试集(28,500个样本)。
提供机构:
CATIE-AQ
原始信息汇总

orange_sum_fr_prompt_title_generation_from_an_article

概述

orange_sum_fr_prompt_title_generation_from_an_articleDataset of French Prompts (DFP) 的一个子集。
该数据集包含 639,521 行,适用于标题生成任务。
原始数据(不含提示)来自 Eddine 等人的数据集 orange_sum
随后应用了一系列提示(见下文),以构建输入和目标列,从而获得与 Muennighoff 等人的 xP3 数据集相同的格式。

提示列表

该数据集创建了 19 个提示,逻辑上包括直陈式、第二人称单数和第二人称复数的提示形式。

"+document+" Générer un titre pour cet article :,
"+document+" Génère un titre pour cet article :,
"+document+" Générez un titre pour cet article :,
"+document+" Rédiger un titre pour cet article :,
"+document+" Rédige un titre pour cet article :,
"+document+" Rédigez un titre pour cet article :,
"+document+" Ecrire un titre pour cet article :,
"+document+" Ecris un titre pour cet article :,
"+document+" Ecrivez un titre pour cet article :,
"Générer un titre pour larticle suivant : "+document,
"Génère un titre pour larticle suivant : "+document,
"Générez un titre pour larticle suivant : "+document,
"Rédiger un titre pour larticle suivant : "+document,
"Rédige un titre pour larticle suivant : "+document,
"Rédigez un titre pour larticle suivant : "+document,
"Ecrire un titre pour larticle suivant : "+document,
"Ecris un titre pour larticle suivant : "+document,
"Ecrivez un titre pour larticle suivant : "+document,
"+document+" Titre :

提示特征

在上述提示列表中,documenttargets 是从以下内容构建的:

orange_sum = load_dataset(orange_sum,title) document = orange_sum[train][i][text] targets = orange_sum[train][i][summary]

数据集划分

  • train 包含 582,521 个样本
  • valid 包含 28,500 个样本
  • test 包含 28,500 个样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/orange_sum_fr_prompt_title_generation_from_an_article")

引用

原始数据

@article{eddine2020barthez, title={BARTheZ: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }

该数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

CC-BY-SA-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作