five

CATIE-AQ/orange_sum_fr_prompt_text_generation_from_title_of_an_article

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/orange_sum_fr_prompt_text_generation_from_title_of_an_article
下载链接
链接失效反馈
官方服务:
资源简介:
orange_sum_fr_prompt_text_generation_from_title_of_an_article数据集是法语提示数据集(DFP)的一个子集,包含908,793行数据,可用于词性标注任务。数据来源于orange_sum数据集,并通过应用一系列提示来构建输入和目标列,以匹配xP3数据集的格式。数据集分为训练集、验证集和测试集,分别包含827,793、40,500和40,500个样本。
提供机构:
CATIE-AQ
原始信息汇总

orange_sum_fr_prompt_text_generation_from_title_of_an_article

概述

orange_sum_fr_prompt_text_generation_from_title_of_an_articleDataset of French Prompts (DFP) 的一个子集。该数据集包含 908,793 行,可用于词性标注任务。原始数据(不包含提示)来自 Eddine 等人的数据集 orange_sum。通过应用一系列提示,构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。

提示列表

该数据集使用了 27 个提示,这些提示采用直陈式语气,包括“你”和“您”两种称呼形式。

提示示例

Rédiger un texte dont le titre est : "+title+"., Rédige un texte dont le titre est : "+title+"., Rédigez un texte dont le titre est : "+title+"., ... "+title +" Ecrivez un document de 1 à 5 phrases sur le titre précédent :

特征构建

在上述提示列表中,titletargets 是从以下代码构建的:

orange_sum = load_dataset(orange_sum,title) title = orange_sum[train][i][summary] targets = orange_sum[train][i][text]

数据分割

  • train:827,793 个样本
  • valid:40,500 个样本
  • test:40,500 个样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/orange_sum_fr_prompt_text_generation_from_title_of_an_article")

引用

原始数据

@article{eddine2020barthez, title={BARThez: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023, author = { {Centre Aquitain des Technologies de lInformation et Electroniques} }, title = { DFP (Revision 1d24c09) }, year = 2023, url = { https://huggingface.co/datasets/CATIE-AQ/DFP }, doi = { 10.57967/hf/1200 }, publisher = { Hugging Face } }

许可证

CC-BY-SA-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作