five

CATIE-AQ/amazon_reviews_multi_fr_prompt_classes_classification

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/amazon_reviews_multi_fr_prompt_classes_classification
下载链接
链接失效反馈
官方服务:
资源简介:
amazon_reviews_multi_fr_prompt_classes_classification是amazon_reviews_multi数据集的法语子集,包含4,480,000条用于文本分类的记录。该数据集基于21种不同的提示语构建,以适配xP3数据集的格式。

amazon_reviews_multi_fr_prompt_classes_classification is a French subset of the amazon_reviews_multi dataset, containing 4,480,000 records for text classification tasks. The dataset is built based on 21 different prompts to fit the format of the xP3 dataset.
提供机构:
CATIE-AQ
原始信息汇总

amazon_reviews_multi_fr_prompt_classes_classification

概述

amazon_reviews_multi_fr_prompt_classes_classificationDataset of French Prompts (DFP) 的一个子集。
它包含 4,480,000 行数据,可用于文本分类任务。
原始数据(无提示)来自 Keung 等人的数据集 amazon_reviews_multi,仅保留了法语部分。
通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。

使用的提示

列表

该数据集创建了 21 个提示,逻辑包括使用直陈式、使用“你”和“您”的形式。

Le texte suivant parle-t-il de "+classes+" ? Texte : +text, Le texte suivant concerne-t-il "+classes+" ? Texte : +text, Le texte suivant évoque-t-il "+classes+" ? Texte : +text, text+ Étant donné la liste de catégories suivante : "+classes+" à quelle catégorie appartient le texte ?, text+ Étant donné la liste de classes suivante : "+classes+" à quelle classe appartient le texte ?, Étant donné une liste de catégories : "+classes+" à quelle catégorie appartient le texte suivant ? Texte : +text, Étant donné une liste de classes : "+classes+" à quelle classe appartient le texte suivant ? Texte : +text, Étant donné un choix de catégories : "+classes+", le texte fait référence à laquelle ? Texte : +text, Étant donné un choix de classe : "+classes+", le texte fait référence à laquelle ? Texte : +text, Choisir une catégorie pour le texte suivant. Les options sont les suivantes : "+classes+" Texte : +text, Choisir une catégorie pour le texte suivant. Les possibilités sont les suivantes : "+classes+" Texte : +text, Choisir une catégorie pour le texte suivant. Les choix sont les suivants : "+classes+" Texte : +text, Choisir une classe pour le texte suivant. Les options sont les suivantes : "+classes+" Texte : +text, Choisir une classe pour le texte suivant. Les possibilités sont les suivantes : "+classes+" Texte : +text, Choisir une classe pour le texte suivant. Les choix sont les suivants : "+classes+" Texte : +text, Sélectionner une catégorie pour le texte suivant. Les options sont les suivantes : "+classes+" Texte : +text, Sélectionner une catégorie pour le texte suivant. Les possibilités sont les suivantes : "+classes+" Texte : +text, Sélectionner une catégorie pour le texte suivant. Les choix sont les suivants : "+classes+" Texte : +text, Sélectionner une classe pour le texte suivant. Les options sont les suivantes : "+classes+" Texte : +text, Sélectionner une classe pour le texte suivant. Les possibilités sont les suivantes : "+classes+" Texte : +text, Sélectionner une classe pour le texte suivant. Les choix sont les suivants : "+classes+" Texte : +text

提示中使用的特征

在上述提示列表中,texttargets 是从以下代码构建的:

arm = load_dataset(amazon_reviews_multi, fr) text = arm[train][review_body][i] targets = arm[train][product_category][i].replace(personal_care_appliances,appareils_de_soins_personnels).replace(beauty,beauté).replace(lawn_and_garden,pelouse_et_jardin).replace(digital_ebook_purchase,livres_numériques).replace(musical_instruments,instruments).replace(watch,montre).replace(other,autre).replace(jewelry,bijou).replace(automotive,automobile).replace(apparel,vêtement).replace(video_games,jeux_vidéos).replace(toy,jeux).replace(luggage, bagages).replace(pet_products, produits_animaux).replace(electronics,électroniques).replace(office_product,produit_bureau).replace(drugstore,pharmacie).replace(camera,appareil_photo).replace(home,maison).replace(furniture,meubles).replace(book,livre).replace(wireless,sans_fil).replace(grocery,épicerie).replace(industrial_supplies,fournitures_industrielles).replace(kitchen,cuisine).replace(baby_product,produit_bébé).replace(shoes,chaussures).replace(home_improvement,amélioration_de_la_maison)

数据集划分

  • train 包含 4,200,000 个样本
  • valid 包含 140,000 个样本
  • test 包含 140,000 个样本

如何使用

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/amazon_reviews_multi_fr_prompt_text_generation")

引用

原始数据

@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可

Amazon 的数据集在其自己的非商业研究使用协议下授权。该许可相当严格,禁止在任何收取费用的场合使用,包括付费实习等。协议副本可在数据集网页上找到:https://docs.opendata.aws/amazon-reviews-ml/license.txt

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作