defunct-datasets/amazon_reviews_multi
收藏数据集卡片:The Multilingual Amazon Reviews Corpus
数据集描述
数据集摘要
The Multilingual Amazon Reviews Corpus 是一个用于多语言文本分类的亚马逊产品评论数据集。该数据集包含英语、日语、德语、法语、中文和西班牙语的评论,收集时间从2015年11月1日至2019年11月1日。每个记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和粗粒度产品类别(如‘书籍’、‘家电’等)。数据集在星级上进行了平衡,每种语言的每个星级评分占20%。
每种语言的训练集、验证集和测试集分别包含200,000、5,000和5,000条评论。每个评论者的最大评论数为20,每个产品的最大评论数为20。所有评论在2,000个字符后截断,且至少有20个字符。
支持的任务和排行榜
[更多信息待补充]
语言
数据集包含英语、日语、德语、法语、中文和西班牙语的评论。
数据集结构
数据实例
每个数据实例对应一条评论。以下是一个德语评论的示例:
json { "review_id": "de_0784695", "product_id": "product_de_0572654", "reviewer_id": "reviewer_de_0645436", "stars": "1", "review_body": "Leider, leider nach einmal waschen ausgeblichen . Es sieht super hu00fcbsch aus , nur leider stinkt es ganz schrecklich und ein Waschgang in der Maschine ist notwendig ! Nach einem mal waschen sah es aus als wu00e4re es 10 Jahre alt und hatte 1000 e von Waschgu00e4ngen hinter sich :( echt schade !", "review_title": "Leider nicht zu empfehlen", "language": "de", "product_category": "home" }
数据字段
review_id: 评论的字符串标识符。product_id: 被评论产品的字符串标识符。reviewer_id: 评论者的字符串标识符。stars: 1-5之间的整数,表示星级评分。review_body: 评论的文本内容。review_title: 评论的文本标题。language: 评论语言的字符串标识符。product_category: 产品类别的字符串表示。
数据分割
每种语言配置都有自己的train、validation和test分割。all_languages分割是所有语言相应分割的简单连接。例如,all_languages的train分割是每种语言train分割的连接,validation和test也是如此。
数据集创建
策划理由
该数据集的动机是为了推动其他(非英语)语言的情感分析和文本分类研究。
源数据
初始数据收集和规范化
作者从美国、日本、德国、法国、西班牙和中国的市场收集了英语、日语、德语、法语、西班牙语和中文的评论。然后通过应用语言检测算法确保正确的语言,只保留目标语言的评论。
源语言生产者
原始文本来自在亚马逊市场上对各种产品类别进行评论的亚马逊客户。
注释
注释过程
每个包含的字段都是由用户在提交评论时提供的,或者与评论相关联的。不需要手动或机器驱动的注释。
注释者
N/A
个人和敏感信息
根据原始数据集的许可条款,您不得:
- 将评论语料库中的内容与任何个人信息(包括亚马逊客户账户)关联或联系,或
- 尝试确定评论语料库中任何内容的作者身份。
如果您违反上述任何条件,您访问和使用评论语料库的许可将自动终止。
使用数据的注意事项
数据集的社会影响
该数据集是鼓励在非英语语言中进行文本分类研究的一部分。这样的工作增加了自然语言技术对更多地区和文化的可访问性。不幸的是,这里包含的每种语言都是相对高资源且研究充分的。
偏见的讨论
数据集仅包含已验证购买的评论(如论文第2.1节所述),并且评论应符合亚马逊社区指南。
其他已知限制
数据集的构建使得星级评分的分布是平衡的。这一特性对分类目的有一些优势,但某些类型的语言可能相对于原始评论分布而言过度或不足。
附加信息
数据集策展人
由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith发布。由亚马逊管理。
许可信息
亚马逊已根据其自己的非商业研究使用协议许可此数据集。该许可相当限制性,防止在任何收取费用的地方使用,包括付费实习等。许可协议的副本可以在数据集网页上找到。
引用信息
如果您发现此数据集有用,请引用以下论文:
Phillip Keung, Yichao Lu, György Szarvas and Noah A. Smith. “The Multilingual Amazon Reviews Corpus.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, 2020.
@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }
贡献
感谢@joeddav添加此数据集。




