five

CATIE-AQ/amazon_reviews_multi_fr_prompt_stars_classification

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/amazon_reviews_multi_fr_prompt_stars_classification
下载链接
链接失效反馈
官方服务:
资源简介:
amazon_reviews_multi_fr_prompt_stars_classification数据集是法语提示数据集(DFP)的一个子集,包含4,620,000行数据,用于星级分类情感分析任务。原始数据来自amazon_reviews_multi数据集中的法语部分,并应用了28种提示来构建输入和目标列,格式与xP3数据集相同。数据集分为训练集、验证集和测试集,分别包含4,400,000、110,000和110,000个样本。

amazon_reviews_multi_fr_prompt_stars_classification数据集是法语提示数据集(DFP)的一个子集,包含4,620,000行数据,用于星级分类情感分析任务。原始数据来自amazon_reviews_multi数据集中的法语部分,并应用了28种提示来构建输入和目标列,格式与xP3数据集相同。数据集分为训练集、验证集和测试集,分别包含4,400,000、110,000和110,000个样本。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

数据集名称:amazon_reviews_multi_fr_prompt_stars_classification

数据集来源:该数据集是Dataset of French Prompts (DFP)的一个子集,原始数据来自amazon_reviews_multi

数据集大小:包含4,620,000行数据。

语言:法语(fr)

任务类型:文本分类(text-classification),具体为星级分类情感分析任务。

数据集结构

  • train:4,400,000样本
  • valid:110,000样本
  • test:110,000样本

使用方法: python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/amazon_reviews_multi_fr_prompt_stars_classification")

许可证:该数据集受亚马逊自己的协议约束,仅限非商业研究使用。

数据集特征

提示列表:该数据集使用了28个提示,这些提示包括使用指示性语气、使用tu形式和vous形式的提示。

特征构造

  • review:从amazon_reviews_multi数据集中提取的评论正文。
  • targets:从amazon_reviews_multi数据集中提取的星级评分。

引用信息

原始数据引用

@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }

本数据集引用

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作