five

CATIE-AQ/amazon_reviews_multi_fr_prompt_text_generation_from_title_of_a_review

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/amazon_reviews_multi_fr_prompt_text_generation_from_title_of_a_review
下载链接
链接失效反馈
官方服务:
资源简介:
amazon_reviews_multi_fr_prompt_text_generation_from_title_of_a_review是一个文本生成任务的数据集,包含7,560,000条基于Amazon法语评论的记录。数据集使用了一系列提示来构建输入和目标列,以用于生成与评论标题相关的文本。

amazon_reviews_multi_fr_prompt_text_generation_from_title_of_a_review is a text generation dataset containing 7,560,000 entries based on the Amazon French reviews. It uses a series of prompts to construct input and target columns for generating text related to review titles.
提供机构:
CATIE-AQ
原始信息汇总

amazon_reviews_multi_fr_prompt_text_generation_from_title_of_a_review

概述

amazon_reviews_multi_fr_prompt_text_generation_from_title_of_a_reviewDataset of French Prompts (DFP) 的一个子集。
它包含 7,560,000 行数据,可用于文本生成任务。
原始数据(不带提示)来自 Keung 等人的数据集 amazon_reviews_multi,仅保留了法语部分。
随后应用了一系列提示(见下文),以构建输入和目标列,从而获得与 Muennighoff 等人的 xP3 数据集相同的格式。

使用的提示

列表

该数据集创建了 36 个提示。应用的逻辑包括使用直陈式、使用“你”和“您”的形式。

Rédiger un commentaire dont le titre est : "+title+", Rédige un commentaire dont le titre est : "+title+", Rédigez un commentaire dont le titre est : "+title+", Rédiger un avis dont le titre est : "+title+", Rédige un avis dont le titre est : "+title+", Rédigez un avis dont le titre est : "+title+", Rédiger une critique dont le titre est : "+title+", Rédige une critique dont le titre est : "+title+", Rédigez une critique dont le titre est : "+title+", Rédiger une évaluation dont le titre est : "+title+", Rédige une évaluation dont le titre est : "+title+", Rédigez une évaluation dont le titre est : "+title+", """Générer un commentaire dun produit imaginaire dont le titre est : " """+title+""" " Le commentaire : """, """Génère un commentaire dun produit imaginaire dont le titre est : " """+title+""" " Le commentaire : """, """Générez un commentaire dun produit imaginaire dont le titre est : " """+title+""" " Le commentaire : """, """Générer un avis dun produit imaginaire dont le titre est : " """+title+""" " Lavis : """, """Génére un avis dun produit imaginaire dont le titre est : " """+title+""" " Lavis : """, """Générez un avis dun produit imaginaire dont le titre est : " """+title+""" " Lavis : """, """Générer une critique dun produit imaginaire dont le titre est : " """+title+""" " La critique : """, """Génère une critique dun produit imaginaire dont le titre est : " """+title+""" " La critique : """, """Générez une critique dun produit imaginaire dont le titre est : " """+title+""" " La critique : """, """Générer une évaluation dun produit imaginaire dont le titre est : " """+title+""" " Lévaluation : """, """Génère une évaluation dun produit imaginaire dont le titre est : " """+title+""" " Lévaluation : """, """Générez une évaluation dun produit imaginaire dont le titre est : " """+title+""" " Lévaluation : """, Titre : "+title +" Ecrire un commentaire de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecris un commentaire de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecrivez un commentaire de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecrire un avis de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecris un avis de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecrivez un avis de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecrire une critique de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecris une critique de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecrivez une critique de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecrire une évaluation de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecris une évaluation de 1 à 5 phrases sur le titre précédent : , Titre : "+title +" Ecrivez une évaluation de 1 à 5 phrases sur le titre précédent : ,

提示中使用的特征

在上述提示列表中,titletargets 是从以下代码构造的:

arm = load_dataset(amazon_reviews_multi, fr) title = arm[train][review_title][i] targets = arm[train][review_body][i]

分割

  • train 包含 7,200,000 个样本
  • valid 包含 180,000 个样本
  • test 包含 180,000 个样本

如何使用?

from datasets import load_dataset dataset = load_dataset("CATIE-AQ/amazon_reviews_multi_fr_prompt_text_generation_from_title_of_a_review")

引用

原始数据

@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

Amazon 已将其数据集授权为仅限非商业研究使用的协议。该许可证相当严格,禁止在任何收取费用的地方使用,包括付费实习等。协议副本可在数据集网页上找到:https://docs.opendata.aws/amazon-reviews-ml/license.txt

通过访问多语言 Amazon 评论语料库(“评论语料库”),您同意评论语料库是受 Amazon.com 使用条款约束的 Amazon 服务,并且您同意遵守以下附加条件:

除了使用条款下授予的许可权利外,Amazon 或其内容提供商授予您有限的、非独家的、不可转让的、不可再授权的、可撤销的许可,以访问和使用评论语料库进行学术研究。您不得转售、重新发布或以任何商业用途使用评论语料库或其内容,包括将评论语料库用于商业研究,例如与资助或咨询合同、实习或其他关系相关的研究,其中结果是为收费或交付给营利性组织。您不得(a)将评论语料库中的内容与任何个人信息(包括 Amazon 客户账户)关联,或(b)尝试确定评论语料库中任何内容的作者身份。如果您违反上述任何条件,您访问和使用评论语料库的许可将自动终止,不影响 Amazon 可能拥有的任何其他权利或补救措施。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作