five

CATIE-AQ/amazon_reviews_multi_fr_prompt_title_generation_from_a_review

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/amazon_reviews_multi_fr_prompt_title_generation_from_a_review
下载链接
链接失效反馈
官方服务:
资源简介:
amazon_reviews_multi_fr_prompt_title_generation_from_a_review数据集是法语提示数据集(DFP)的一个子集,包含3,989,924行数据,用于文本生成任务。原始数据来源于amazon_reviews_multi数据集,仅保留了法语部分。通过应用18个不同的提示,构建了输入和目标列,使其格式与xP3数据集一致。数据集分为训练集(3,799,924个样本)、验证集(95,000个样本)和测试集(95,000个样本)。该数据集的使用受到亚马逊的非商业研究使用许可的限制,禁止任何形式的商业使用。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

数据集名称

amazon_reviews_multi_fr_prompt_title_generation_from_a_review

数据集来源

该数据集是 Dataset of French Prompts (DFP) 的一个子集。

数据集大小

包含 3,989,924 条数据。

数据集任务类别

  • 文本生成

数据集标签

  • 标题生成
  • DFP
  • 法语提示

数据集语言

  • 法语

数据集创建者

  • 发现的数据

数据集多语言性

  • 单语种

数据集源

原始数据来自 Keung 等人的数据集 amazon_reviews_multi,仅保留了法语部分。

提示列表

该数据集使用了 18 个提示,这些提示包括直陈式、第二人称单数和第二人称复数形式。

数据集分割

  • train:3,799,924 条样本
  • valid:95,000 条样本
  • test:95,000 条样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/amazon_reviews_multi_fr_prompt_title_generation_from_a_review")

引用

原始数据

@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

Amazon 的数据集仅限于非商业研究使用。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作