CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article
收藏orange_sum_fr_prompt_text_generation_from_an_article
概述
orange_sum_fr_prompt_text_generation_from_an_article 是 Dataset of French Prompts (DFP) 的一个子集。
该数据集包含 539,400 行,可用于文本生成任务。
原始数据(无提示)来自 Eddine 等人的数据集 orange_sum。
通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。
使用的提示
列表
该数据集创建了 24 个提示。提示的逻辑包括使用直陈式、使用“你”和“您”的形式。
"+document+"
Continuer le texte sur 1000 caractères maximum :,
"+document+"
Continue le texte sur 1000 caractères maximum :,
"+document+"
Continuez le texte sur 1000 caractères maximum :,
"+document+"
Poursuivre le texte sur 1000 caractères maximum :,
"+document+"
Poursuis le texte sur 1000 caractères maximum :,
"+document+"
Poursuivez le texte sur 1000 caractères maximum :,
"+document+"
Prolonger le texte sur 1000 caractères maximum :,
"+document+"
Prolonge le texte sur 1000 caractères maximum :,
"+document+"
Prolongez le texte sur 1000 caractères maximum :,
"+document+"
Rédiger la suite du texte : ,
"+document+"
Rédige la suite du texte : ,
"+document+"
Rédigez la suite du texte : ,
"+document+"
Imaginer la suite du texte : ,
"+document+"
Imagine la suite du texte : ,
"+document+"
Imaginez la suite du texte : ,
"+document+"
Ecrire la suite du texte : ,
"+document+"
Ecris la suite du texte : ,
"+document+"
Ecriver la suite du texte : ,
"+document+"
Développer la suite du texte : ,
"+document+"
Développe la suite du texte : ,
"+document+"
Développez la suite du texte : ,
"+document+"
Générer la suite du texte : ,
"+document+"
Génère la suite du texte : ,
"+document+"
Générez la suite du texte : ,
提示中使用的特征
在上述提示列表中,text 和 targets 是从以下代码构造的:
orange_sum = load_dataset(orange_sum,abstract) if len(orange_sum[train][i][text]) > 1000: document = orange_sum[train][i][text][:1000] targets = orange_sum[train][i][summary][1000:]
分割
train包含 472,944 个样本valid包含 33,096 个样本test包含 33,360 个样本
如何使用?
from datasets import load_dataset dataset = load_dataset("CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article")
引用
原始数据
@article{eddine2020barthez, title={BARThez: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }
该数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可证
CC-BY-SA-4.0



