defunct-datasets/amazon_reviews_multi

Hugging Face2023-11-02 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/defunct-datasets/amazon_reviews_multi

下载链接

链接失效反馈

资源简介：

多语言亚马逊评论数据集包含英语、日语、德语、法语、中文和西班牙语的亚马逊产品评论，收集于2015年11月1日至2019年11月1日之间。每条记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和产品类别。数据集在每种语言中平衡了星级评分，每个星级评分占评论的20%。每种语言的训练集、开发集和测试集分别包含200,000、5,000和5,000条评论。评论的最大长度为2,000字符，最小长度为20字符。数据集支持的任务包括文本分类、文本生成、填充掩码和情感分类等。

The Multilingual Amazon Reviews Dataset contains Amazon product reviews in English, Japanese, German, French, Chinese, and Spanish, collected between November 1, 2015 and November 1, 2019. Each record includes review text, review title, star rating, anonymized reviewer ID, anonymized product ID, and product category. The dataset balances the distribution of star ratings across each language, with each star rating category accounting for 20% of the total reviews. For each language, the training, development, and test sets respectively contain 200,000, 5,000, and 5,000 reviews. Each review has a maximum length of 2,000 characters and a minimum length of 20 characters. Supported tasks for this dataset include text classification, text generation, masked language modeling, and sentiment classification, among others.

提供机构：

defunct-datasets

原始信息汇总

数据集卡片：The Multilingual Amazon Reviews Corpus

数据集描述

数据集摘要

The Multilingual Amazon Reviews Corpus 是一个用于多语言文本分类的亚马逊产品评论数据集。该数据集包含英语、日语、德语、法语、中文和西班牙语的评论，收集时间从2015年11月1日至2019年11月1日。每个记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和粗粒度产品类别（如‘书籍’、‘家电’等）。数据集在星级上进行了平衡，每种语言的每个星级评分占20%。

每种语言的训练集、验证集和测试集分别包含200,000、5,000和5,000条评论。每个评论者的最大评论数为20，每个产品的最大评论数为20。所有评论在2,000个字符后截断，且至少有20个字符。

支持的任务和排行榜

[更多信息待补充]

语言

数据集包含英语、日语、德语、法语、中文和西班牙语的评论。

数据集结构

数据实例

每个数据实例对应一条评论。以下是一个德语评论的示例：

json { "review_id": "de_0784695", "product_id": "product_de_0572654", "reviewer_id": "reviewer_de_0645436", "stars": "1", "review_body": "Leider, leider nach einmal waschen ausgeblichen . Es sieht super hu00fcbsch aus , nur leider stinkt es ganz schrecklich und ein Waschgang in der Maschine ist notwendig ! Nach einem mal waschen sah es aus als wu00e4re es 10 Jahre alt und hatte 1000 e von Waschgu00e4ngen hinter sich :( echt schade !", "review_title": "Leider nicht zu empfehlen", "language": "de", "product_category": "home" }

数据字段

review_id: 评论的字符串标识符。
product_id: 被评论产品的字符串标识符。
reviewer_id: 评论者的字符串标识符。
stars: 1-5之间的整数，表示星级评分。
review_body: 评论的文本内容。
review_title: 评论的文本标题。
language: 评论语言的字符串标识符。
product_category: 产品类别的字符串表示。

数据分割

每种语言配置都有自己的train、validation和test分割。all_languages分割是所有语言相应分割的简单连接。例如，all_languages的train分割是每种语言train分割的连接，validation和test也是如此。

数据集创建

策划理由

该数据集的动机是为了推动其他（非英语）语言的情感分析和文本分类研究。

源数据

初始数据收集和规范化

作者从美国、日本、德国、法国、西班牙和中国的市场收集了英语、日语、德语、法语、西班牙语和中文的评论。然后通过应用语言检测算法确保正确的语言，只保留目标语言的评论。

源语言生产者

原始文本来自在亚马逊市场上对各种产品类别进行评论的亚马逊客户。

注释

注释过程

每个包含的字段都是由用户在提交评论时提供的，或者与评论相关联的。不需要手动或机器驱动的注释。

注释者

N/A

个人和敏感信息

根据原始数据集的许可条款，您不得：

将评论语料库中的内容与任何个人信息（包括亚马逊客户账户）关联或联系，或
尝试确定评论语料库中任何内容的作者身份。

如果您违反上述任何条件，您访问和使用评论语料库的许可将自动终止。

使用数据的注意事项

数据集的社会影响

该数据集是鼓励在非英语语言中进行文本分类研究的一部分。这样的工作增加了自然语言技术对更多地区和文化的可访问性。不幸的是，这里包含的每种语言都是相对高资源且研究充分的。

偏见的讨论

数据集仅包含已验证购买的评论（如论文第2.1节所述），并且评论应符合亚马逊社区指南。

其他已知限制

数据集的构建使得星级评分的分布是平衡的。这一特性对分类目的有一些优势，但某些类型的语言可能相对于原始评论分布而言过度或不足。

附加信息

数据集策展人

由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith发布。由亚马逊管理。

许可信息

亚马逊已根据其自己的非商业研究使用协议许可此数据集。该许可相当限制性，防止在任何收取费用的地方使用，包括付费实习等。许可协议的副本可以在数据集网页上找到。

引用信息

如果您发现此数据集有用，请引用以下论文：

Phillip Keung, Yichao Lu, György Szarvas and Noah A. Smith. “The Multilingual Amazon Reviews Corpus.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, 2020.

@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }

贡献

感谢@joeddav添加此数据集。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式是收集来自美国、日本、德国、法国、西班牙和中国市场平台的亚马逊产品评论。数据收集时间跨度为2015年11月1日至2019年11月1日。评论被分为英语、日语、德语、法语、中文和西班牙语。数据集首先应用了语言检测算法来确保评论的语言正确性，然后根据语言将评论分类。为了平衡星级的分布，每个语言中的每个星级都构成了20%的评论。数据集包括训练、验证和测试三个部分，每个语言配置都有对应的分割。

特点

该数据集的特点是包含多种语言的亚马逊产品评论，涵盖了英语、日语、德语、法语、中文和西班牙语。每个评论都包含文本、标题、星级评分、匿名评论者ID、匿名产品ID和产品类别。数据集的星级分布是平衡的，每个星级在每种语言中都构成了20%的评论。此外，数据集还包含训练、验证和测试三个部分，每个部分都有一定数量的评论。

使用方法

该数据集的使用方法包括多种自然语言处理任务，如文本分类、情感分析、主题分类、摘要和文本生成。用户可以根据需要选择使用单个语言的数据集或所有语言的数据集。此外，数据集还提供了训练、验证和测试三个部分的分割，方便用户进行模型训练和评估。在使用数据集时，用户需要遵守亚马逊的数据使用协议，不得将数据与个人信息公开或用于商业用途。

背景与挑战

背景概述

该数据集名为amazon_reviews_multi，是一个多语言亚马逊评论语料库。它包含英文、日文、德文、法文、中文和西班牙文的评论，收集时间跨度从2015年11月1日至2019年11月1日。每个数据记录包括评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和粗略的产品类别。该语料库在星级上进行了平衡，每种星级在每个语言中构成20%的评论。数据集的创建旨在推动其他语言（非英语）的文本分类和情感分析研究，并提高自然语言技术在更多地区和文化的可及性。

当前挑战

该数据集面临的挑战包括：1)数据集中可能存在的语言检测错误，导致部分目标语言被错误过滤或保留；2)数据集的星级评分分布是平衡的，这可能会在某些语言类型中导致过度或不足的代表；3)数据集的使用受到亚马逊的非商业研究使用许可的限制，限制了其商业用途。

常用场景

经典使用场景

在多语言文本分类领域，'amazon_reviews_multi'数据集提供了一个宝贵的资源。该数据集包含了英语、日语、德语、法语、中文和西班牙语等多种语言的亚马逊产品评论，这些评论跨越了2015年11月1日至2019年11月1日的时间范围。每个评论记录都包含了评论正文、评论标题、星级评分、匿名评论者ID、匿名产品ID以及粗粒度产品类别。数据集在星级评分上进行了平衡，使得每种星级评分在每个语言中占20%的评论。这使得该数据集非常适合于开发多语言情感分析、文本分类和文本生成等模型。

实际应用

'amazon_reviews_multi'数据集在电子商务、社交媒体和客户服务等领域有着广泛的应用。通过分析多语言评论数据，企业可以更好地理解不同语言用户的购买行为和偏好，从而优化产品推荐和营销策略。此外，该数据集还可以用于开发多语言情感分析工具，帮助企业监测和管理品牌声誉。在客户服务领域，基于该数据集开发的自然语言处理模型可以用于自动分类和回复用户咨询，提高服务效率。

衍生相关工作

'amazon_reviews_multi'数据集的发布促进了多语言文本分类技术的发展，并衍生出一系列相关研究。例如，研究人员利用该数据集开发了针对特定语言的情感分析模型，提高了模型在特定语言上的准确性和效率。此外，该数据集还被用于研究多语言文本分类中的语言偏见问题，并提出了相应的解决方案。这些研究不仅推动了多语言文本分类技术的发展，也为其他自然语言处理任务提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集