five

CATIE-AQ/orange_sum_fr_prompt_summarization

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/orange_sum_fr_prompt_summarization
下载链接
链接失效反馈
官方服务:
资源简介:
orange_sum_fr_prompt_summarization数据集是从法语提示数据集(DFP)中提取的一个子集,包含683,228行数据,适用于摘要任务。原始数据来源于Eddine等人的orange_sum数据集,并通过应用一系列提示来构建输入和目标列,以匹配xP3数据集的格式。数据集包含28个提示,这些提示以指示性时态、你形式(tutoiement)和您形式(vouvoiement)提出。数据集分为训练集(599,228个样本)、验证集(42,000个样本)和测试集(42,000个样本)。
提供机构:
CATIE-AQ
原始信息汇总

orange_sum_fr_prompt_summarization

概述

orange_sum_fr_prompt_summarizationDataset of French Prompts (DFP) 的一个子集。
它包含 683,228 行数据,适用于摘要任务。
原始数据(无提示)来自 Eddine 等人创建的 orange_sum 数据集。
通过应用一系列提示,构建了输入和目标列,以获得与 Muennighoff 等人创建的 xP3 数据集相同的格式。

提示列表

该数据集使用了 28 个提示,这些提示采用直陈式,包括 tutoiement 和 vouvoiement 形式。

示例提示

Résumer le texte suivant : "+document+",
Résume le texte suivant : "+document+",
Résumez le texte suivant : "+document+",
Résumer le texte suivant en quelques mots : "+document+",
Résume le texte suivant en quelques mots : "+document+",
Résumez le texte suivant en quelques mots : "+document+",
"Condenser le texte à lessentiel :" +document,
"Condense le texte à lessentiel :" +document,
"Condensez le texte à lessentiel :" +document,
"+document+ Rédiger un résumé du texte ci-dessus :,
"+document+ Rédige un résumé du texte ci-dessus :,
"+document+ Rédigez un résumé du texte ci-dessus :,
Premièrement, lire le texte ci-dessous.

"+document+"

Maintenant, rédiger un court résumé.,
Premièrement, lis le texte ci-dessous.

"+document+"

Maintenant, rédige un court résumé.,
Premièrement, lisez le texte ci-dessous.

"+document+"

Maintenant, rédigez un court résumé.,
Article : "+document+"/n Résumé : ,
"+document+ Comment reformuler cela en quelques mots ?,
"+document+ Comment peux-tu reformuler cela en quelques mots ?,
"+document+ Comment pouvez-vous reformuler cela en quelques mots ?,
Résumer ce document : "+document+" Résumé :,
Résume ce document : "+document+" Résumé :,
Résumez ce document : "+document+" Résumé :,
"+document+ Compte tenu du document ci-dessus, écrire une phrase pour le résumer :,
"+document+ Compte tenu du document ci-dessus, écris une phrase pour le résumer :,
"+document+ Compte tenu du document ci-dessus, écrivez une phrase pour le résumer :,
"+document+ Rédiger un résumé du texte ci-dessus : ,
"+document+ Rédige un résumé du texte ci-dessus : ,
"+document+ Rédigez un résumé du texte ci-dessus :

提示中的特征

在上述提示列表中,documenttargets 是从以下数据构建的:

orange_sum = load_dataset(orange_sum,abstract) document = orange_sum[train][i][text] targets = orange_sum[train][i][summary]

数据分割

  • train:599,228 个样本
  • valid:42,000 个样本
  • test:42,000 个样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/orange_sum_fr_prompt_summarization")

引用

原始数据

@article{eddine2020barthez, title={BARThez: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

CC-BY-SA-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作