CATIE-AQ/amazon_reviews_multi_fr_prompt_stars_classification
收藏数据集概述
数据集名称:amazon_reviews_multi_fr_prompt_stars_classification
数据集来源:该数据集是Dataset of French Prompts (DFP)的一个子集,原始数据来自amazon_reviews_multi。
数据集大小:包含4,620,000行数据。
语言:法语(fr)
任务类型:文本分类(text-classification),具体为星级分类情感分析任务。
数据集结构:
train:4,400,000样本valid:110,000样本test:110,000样本
使用方法: python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/amazon_reviews_multi_fr_prompt_stars_classification")
许可证:该数据集受亚马逊自己的协议约束,仅限非商业研究使用。
数据集特征
提示列表:该数据集使用了28个提示,这些提示包括使用指示性语气、使用tu形式和vous形式的提示。
特征构造:
review:从amazon_reviews_multi数据集中提取的评论正文。targets:从amazon_reviews_multi数据集中提取的星级评分。
引用信息
原始数据引用:
@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }
本数据集引用:
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}



