CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article

Name: CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article
Creator: CATIE-AQ
Published: 2025-02-10 15:55:30
License: 暂无描述

Hugging Face2025-02-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article

下载链接

链接失效反馈

官方服务：

资源简介：

orange_sum_fr_prompt_text_generation_from_an_article是一个包含539,400行数据的文本生成任务数据集，它是Dataset of French Prompts (DFP)的一个子集。数据集使用24个提示，以指示性语气、tu和vous形式构建，用于从原始数据集orange_sum中提取文本和目标，形成与xP3数据集相同的格式。数据集分为训练集、验证集和测试集，分别包含472,944、33,096和33,360个样本。

提供机构：

CATIE-AQ

原始信息汇总

orange_sum_fr_prompt_text_generation_from_an_article

概述

orange_sum_fr_prompt_text_generation_from_an_article 是 Dataset of French Prompts (DFP) 的一个子集。
该数据集包含 539,400 行，可用于文本生成任务。
原始数据（无提示）来自 Eddine 等人的数据集 orange_sum。
通过应用一系列提示（见下文），构建了输入和目标列，从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。

使用的提示

列表

该数据集创建了 24 个提示。提示的逻辑包括使用直陈式、使用“你”和“您”的形式。

"+document+" Continuer le texte sur 1000 caractères maximum :,
"+document+" Continue le texte sur 1000 caractères maximum :,
"+document+" Continuez le texte sur 1000 caractères maximum :,
"+document+" Poursuivre le texte sur 1000 caractères maximum :,
"+document+" Poursuis le texte sur 1000 caractères maximum :,
"+document+" Poursuivez le texte sur 1000 caractères maximum :,
"+document+" Prolonger le texte sur 1000 caractères maximum :,
"+document+" Prolonge le texte sur 1000 caractères maximum :,
"+document+" Prolongez le texte sur 1000 caractères maximum :,
"+document+" Rédiger la suite du texte : ,
"+document+" Rédige la suite du texte : ,
"+document+" Rédigez la suite du texte : ,
"+document+" Imaginer la suite du texte : ,
"+document+" Imagine la suite du texte : ,
"+document+" Imaginez la suite du texte : ,
"+document+" Ecrire la suite du texte : ,
"+document+" Ecris la suite du texte : ,
"+document+" Ecriver la suite du texte : ,
"+document+" Développer la suite du texte : ,
"+document+" Développe la suite du texte : ,
"+document+" Développez la suite du texte : ,
"+document+" Générer la suite du texte : ,
"+document+" Génère la suite du texte : ,
"+document+" Générez la suite du texte : ,

提示中使用的特征

在上述提示列表中，text 和 targets 是从以下代码构造的：

orange_sum = load_dataset(orange_sum,abstract) if len(orange_sum[train][i][text]) > 1000: document = orange_sum[train][i][text][:1000] targets = orange_sum[train][i][summary][1000:]

分割

train 包含 472,944 个样本
valid 包含 33,096 个样本
test 包含 33,360 个样本

如何使用？

from datasets import load_dataset dataset = load_dataset("CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article")

引用

原始数据

@article{eddine2020barthez, title={BARThez: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }

该数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

CC-BY-SA-4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集