five

CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article
下载链接
链接失效反馈
官方服务:
资源简介:
orange_sum_fr_prompt_text_generation_from_an_article是一个包含539,400行数据的文本生成任务数据集,它是Dataset of French Prompts (DFP)的一个子集。数据集使用24个提示,以指示性语气、tu和vous形式构建,用于从原始数据集orange_sum中提取文本和目标,形成与xP3数据集相同的格式。数据集分为训练集、验证集和测试集,分别包含472,944、33,096和33,360个样本。

orange_sum_fr_prompt_text_generation_from_an_article是一个包含539,400行数据的文本生成任务数据集,它是Dataset of French Prompts (DFP)的一个子集。数据集使用24个提示,以指示性语气、tu和vous形式构建,用于从原始数据集orange_sum中提取文本和目标,形成与xP3数据集相同的格式。数据集分为训练集、验证集和测试集,分别包含472,944、33,096和33,360个样本。
提供机构:
CATIE-AQ
原始信息汇总

orange_sum_fr_prompt_text_generation_from_an_article

概述

orange_sum_fr_prompt_text_generation_from_an_articleDataset of French Prompts (DFP) 的一个子集。
该数据集包含 539,400 行,可用于文本生成任务。
原始数据(无提示)来自 Eddine 等人的数据集 orange_sum
通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。

使用的提示

列表

该数据集创建了 24 个提示。提示的逻辑包括使用直陈式、使用“你”和“您”的形式。

"+document+" Continuer le texte sur 1000 caractères maximum :,
"+document+" Continue le texte sur 1000 caractères maximum :,
"+document+" Continuez le texte sur 1000 caractères maximum :,
"+document+" Poursuivre le texte sur 1000 caractères maximum :,
"+document+" Poursuis le texte sur 1000 caractères maximum :,
"+document+" Poursuivez le texte sur 1000 caractères maximum :,
"+document+" Prolonger le texte sur 1000 caractères maximum :,
"+document+" Prolonge le texte sur 1000 caractères maximum :,
"+document+" Prolongez le texte sur 1000 caractères maximum :,
"+document+" Rédiger la suite du texte : ,
"+document+" Rédige la suite du texte : ,
"+document+" Rédigez la suite du texte : ,
"+document+" Imaginer la suite du texte : ,
"+document+" Imagine la suite du texte : ,
"+document+" Imaginez la suite du texte : ,
"+document+" Ecrire la suite du texte : ,
"+document+" Ecris la suite du texte : ,
"+document+" Ecriver la suite du texte : ,
"+document+" Développer la suite du texte : ,
"+document+" Développe la suite du texte : ,
"+document+" Développez la suite du texte : ,
"+document+" Générer la suite du texte : ,
"+document+" Génère la suite du texte : ,
"+document+" Générez la suite du texte : ,

提示中使用的特征

在上述提示列表中,texttargets 是从以下代码构造的:

orange_sum = load_dataset(orange_sum,abstract) if len(orange_sum[train][i][text]) > 1000: document = orange_sum[train][i][text][:1000] targets = orange_sum[train][i][summary][1000:]

分割

  • train 包含 472,944 个样本
  • valid 包含 33,096 个样本
  • test 包含 33,360 个样本

如何使用?

from datasets import load_dataset dataset = load_dataset("CATIE-AQ/orange_sum_fr_prompt_text_generation_from_an_article")

引用

原始数据

@article{eddine2020barthez, title={BARThez: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }

该数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

CC-BY-SA-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作