CATIE-AQ/amazon_reviews_multi_fr_prompt_title_generation_from_a_review
收藏数据集概述
数据集名称
amazon_reviews_multi_fr_prompt_title_generation_from_a_review
数据集来源
该数据集是 Dataset of French Prompts (DFP) 的一个子集。
数据集大小
包含 3,989,924 条数据。
数据集任务类别
- 文本生成
数据集标签
- 标题生成
- DFP
- 法语提示
数据集语言
- 法语
数据集创建者
- 发现的数据
数据集多语言性
- 单语种
数据集源
原始数据来自 Keung 等人的数据集 amazon_reviews_multi,仅保留了法语部分。
提示列表
该数据集使用了 18 个提示,这些提示包括直陈式、第二人称单数和第二人称复数形式。
数据集分割
train:3,799,924 条样本valid:95,000 条样本test:95,000 条样本
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/amazon_reviews_multi_fr_prompt_title_generation_from_a_review")
引用
原始数据
@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可证
Amazon 的数据集仅限于非商业研究使用。



