MinQan/amazon_reviews_multi_VN

Name: MinQan/amazon_reviews_multi_VN
Creator: MinQan
Published: 2024-06-04 16:29:07
License: 暂无描述

Hugging Face2024-06-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/MinQan/amazon_reviews_multi_VN

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为多语言亚马逊评论语料库，主要用于多语言文本分类任务。数据集包含英语、日语、德语、法语、中文和西班牙语的亚马逊产品评论，收集时间跨度为2015年11月1日至2019年11月1日。每条记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和产品类别。数据集在每种语言中的星级评分分布是平衡的，每个星级评分占每种语言评论的20%。每种语言的训练集、开发集和测试集分别包含200,000、5,000和5,000条评论。此外，数据集还应用了语言检测算法以确保评论语言的准确性。

提供机构：

MinQan

原始信息汇总

数据集概述

数据集名称

名称: The Multilingual Amazon Reviews Corpus
别名: amazon_reviews_multi

数据集摘要

内容: 包含英语、日语、德语、法语、中文和西班牙语的亚马逊产品评论数据。每个记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和产品粗粒度类别。
时间范围: 数据收集自2015年11月1日至2019年11月1日。
数据平衡: 每种星级评分在每种语言中占比20%。

支持的任务

任务类型: 摘要生成、文本生成、填空、文本分类等。
具体任务: 文本评分、语言建模、掩码语言建模、情感分类、情感评分、主题分类等。

语言信息

语言: 英语、日语、德语、法语、中文、西班牙语。
语言检测: 使用Bojanowski et al. (2017)的算法进行语言检测，确保评论文本的语言正确性。

数据集结构

数据实例: 每个实例对应一个评论，包含review_id、product_id、reviewer_id、stars、review_body、review_title、language和product_category。
数据字段:
- review_id: 字符串，评论标识符。
- product_id: 字符串，产品标识符。
- reviewer_id: 字符串，评论者标识符。
- stars: 整数，星级评分（1-5）。
- review_body: 字符串，评论正文。
- review_title: 字符串，评论标题。
- language: 字符串，评论语言。
- product_category: 字符串，产品类别。
数据分割: 每个语言配置包含训练集、验证集和测试集。all_languages分割是所有语言相应分割的串联。

数据集创建

动机: 推动非英语语言的情感分析和文本分类研究。
数据收集: 从美国、日本、德国、法国、西班牙和中国市场收集评论。
数据处理: 应用语言检测算法确保评论语言正确，移除非目标语言的评论。

使用数据注意事项

个人和敏感信息: 根据许可条款，不得将评论内容与个人信息关联或尝试确定评论作者的身份。
社会影响: 鼓励非英语语言的文本分类研究，但目前包含的语言均为资源较丰富的语言。
偏见讨论: 数据集仅包含经过验证的购买评论，并遵循亚马逊社区指南。
其他限制: 为了平衡星级分布，某些类型的语言可能相对于原始评论分布被过度或不足代表。

附加信息

数据集管理者: 由Phillip Keung, Yichao Lu, György Szarvas, 和 Noah A. Smith发布，由亚马逊管理。
许可信息: 数据集仅限于非商业学术研究使用。
引用信息: 如使用此数据集，请引用Phillip Keung等人的相关论文。

搜集汇总

数据集介绍

构建方式

该数据集通过从亚马逊的美国、日本、德国、法国、西班牙和中国市场收集用户评论构建而成，涵盖了英语、日语、德语、法语、西班牙语和中文六种语言。为确保语言的准确性，采用了基于Bojanowski等人（2017）的语言检测算法，过滤掉非目标语言的评论。数据集经过平衡处理，每种语言的评论在各个星级评分中均匀分布，确保了分类任务的公平性。

特点

该数据集的显著特点在于其多语言性和平衡性。它包含了六种语言的评论，涵盖了多种产品类别，且每种语言的评论在训练、验证和测试集中的分布均匀。此外，数据集中的评论经过语言检测和过滤，确保了语言的准确性，为多语言文本分类和情感分析提供了高质量的数据支持。

使用方法

该数据集适用于多种自然语言处理任务，包括文本分类、情感分析、语言建模等。用户可以根据需要选择特定语言的配置，或使用所有语言的组合。数据集提供了详细的字段信息，如评论ID、产品ID、评论者ID、星级评分、评论内容、评论标题、语言和产品类别，便于用户进行深入分析和模型训练。

背景与挑战

背景概述

亚马逊多语言评论语料库（The Multilingual Amazon Reviews Corpus）由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith等人于2020年发布，旨在推动非英语语言的情感分析和文本分类研究。该数据集收集了2015年11月至2019年11月期间，来自美国、日本、德国、法国、西班牙和中国亚马逊市场的产品评论，涵盖英语、日语、德语、法语、西班牙语和中文。每个评论记录包含评论文本、标题、星级评分、匿名化的评论者ID、产品ID以及产品类别。数据集通过语言检测算法确保评论语言的准确性，并进行了平衡处理，使得每种语言的每个星级评分占比均为20%。该数据集的发布为多语言自然语言处理研究提供了宝贵的资源，尤其在跨语言情感分析和文本分类领域具有重要意义。

当前挑战

亚马逊多语言评论语料库在构建过程中面临多项挑战。首先，数据集需要确保评论语言的准确性，因此采用了语言检测算法，但仍存在少量语言误判的情况。其次，数据集的平衡性处理虽然有助于分类任务，但也可能导致某些语言的特定类型评论在原始分布中被过度或不足代表。此外，数据集的非商业使用限制较为严格，限制了其在商业研究中的应用。最后，尽管数据集涵盖了多种语言，但这些语言大多属于高资源语言，对于低资源语言的研究支持仍然有限。

常用场景

经典使用场景

在多语言文本分类和情感分析领域，MinQan/amazon_reviews_multi_VN数据集的经典应用场景主要集中在跨语言情感分类和产品评论的自动摘要生成。该数据集包含了多种语言的亚马逊产品评论，涵盖了英语、日语、德语、法语、中文和西班牙语，为研究者提供了丰富的多语言文本资源。通过该数据集，研究者可以训练模型以识别不同语言中的情感倾向，并生成简洁的评论摘要，从而提升跨语言文本处理的能力。

衍生相关工作

基于MinQan/amazon_reviews_multi_VN数据集，研究者已开展了多项相关工作，包括多语言情感分类模型的开发、跨语言文本生成技术的研究以及多语言文本摘要的自动生成。这些工作不仅推动了多语言自然语言处理技术的发展，还为其他领域的研究提供了新的思路和方法。例如，基于该数据集的跨语言情感分析模型已被应用于社交媒体监控和消费者行为分析，取得了显著的效果。

数据集最近研究