CATIE-AQ/orange_sum_fr_prompt_title_generation_from_an_article
收藏orange_sum_fr_prompt_title_generation_from_an_article
概述
orange_sum_fr_prompt_title_generation_from_an_article 是 Dataset of French Prompts (DFP) 的一个子集。
该数据集包含 639,521 行,适用于标题生成任务。
原始数据(不含提示)来自 Eddine 等人的数据集 orange_sum。
随后应用了一系列提示(见下文),以构建输入和目标列,从而获得与 Muennighoff 等人的 xP3 数据集相同的格式。
提示列表
该数据集创建了 19 个提示,逻辑上包括直陈式、第二人称单数和第二人称复数的提示形式。
"+document+"
Générer un titre pour cet article :,
"+document+"
Génère un titre pour cet article :,
"+document+"
Générez un titre pour cet article :,
"+document+"
Rédiger un titre pour cet article :,
"+document+"
Rédige un titre pour cet article :,
"+document+"
Rédigez un titre pour cet article :,
"+document+"
Ecrire un titre pour cet article :,
"+document+"
Ecris un titre pour cet article :,
"+document+"
Ecrivez un titre pour cet article :,
"Générer un titre pour larticle suivant : "+document,
"Génère un titre pour larticle suivant : "+document,
"Générez un titre pour larticle suivant : "+document,
"Rédiger un titre pour larticle suivant : "+document,
"Rédige un titre pour larticle suivant : "+document,
"Rédigez un titre pour larticle suivant : "+document,
"Ecrire un titre pour larticle suivant : "+document,
"Ecris un titre pour larticle suivant : "+document,
"Ecrivez un titre pour larticle suivant : "+document,
"+document+"
Titre :
提示特征
在上述提示列表中,document 和 targets 是从以下内容构建的:
orange_sum = load_dataset(orange_sum,title) document = orange_sum[train][i][text] targets = orange_sum[train][i][summary]
数据集划分
train包含 582,521 个样本valid包含 28,500 个样本test包含 28,500 个样本
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/orange_sum_fr_prompt_title_generation_from_an_article")
引用
原始数据
@article{eddine2020barthez, title={BARTheZ: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }
该数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可证
CC-BY-SA-4.0



