Multilingual Amazon Reviews Corpus (MARC)

Name: Multilingual Amazon Reviews Corpus (MARC)
Creator: 亚马逊 †华盛顿大学 ‡艾伦人工智能研究所
Published: 2020-10-06 17:34:01
License: 暂无描述

arXiv2020-10-06 更新2024-06-21 收录

下载链接：

https://registry.opendata.aws/amazon-reviews-ml/

下载链接

链接失效反馈

官方服务：

资源简介：

Multilingual Amazon Reviews Corpus (MARC) 是一个大规模的多语言文本分类数据集，包含2015至2019年间收集的英语、日语、德语、法语、西班牙语和中文的亚马逊商品评论。数据集每条记录包括评论文本、标题、星级评分、匿名化的评论者ID和产品ID以及粗粒度的产品类别。MARC数据集通过AWS Open Datasets平台提供，旨在支持多语言文本分类研究，特别是零样本跨语言转移学习。数据集经过精心处理，确保每种语言的每种星级评分占比均衡，且训练、开发和测试集划分明确，以促进模型的训练和评估。

Multilingual Amazon Reviews Corpus (MARC) is a large-scale multilingual text classification dataset containing Amazon product reviews collected between 2015 and 2019 across six languages: English, Japanese, German, French, Spanish, and Chinese. Each record in the dataset includes review text, review title, star rating, anonymized reviewer ID and product ID, as well as coarse-grained product categories. The MARC dataset is provided via the AWS Open Datasets platform, aiming to support multilingual text classification research, particularly zero-shot cross-lingual transfer learning. The dataset has been rigorously processed to ensure a balanced distribution of each star rating for every language, with clear splits for training, development and test sets to facilitate model training and evaluation.

提供机构：

亚马逊 †华盛顿大学 ‡艾伦人工智能研究所

创建时间：

2020-10-06

搜集汇总

数据集介绍

构建方式

在跨语言文本分类研究领域，数据集的构建需兼顾语言多样性与数据质量。Multilingual Amazon Reviews Corpus (MARC) 的构建过程体现了严谨的数据筛选与处理策略。该数据集从亚马逊美国、日本、德国、法国、西班牙和中国市场收集了2015年至2019年间的已验证购买评论，涵盖英语、日语、德语、法语、西班牙语和中文六种语言。为确保语言纯净性，研究团队应用了语言检测算法，仅保留目标语言评论，并通过词汇过滤排除低频词汇的干扰。此外，数据集中对同一产品或同一评论者的评论数量设定了上限，以平衡数据分布，最终形成了包含训练集、开发集和测试集的标准化分割，每部分均按五星评级均衡采样。

特点

MARC 数据集在跨语言文本分类任务中展现出显著的结构化优势。其核心特点在于语言覆盖的广泛性与数据规模的均衡性，每种语言均包含20万条训练评论、5000条开发评论和5000条测试评论，且五星评级分布严格保持各占20%，有效避免了类别不平衡问题。数据集中每条记录均包含评论文本、标题、星级评分、匿名评论者ID、匿名产品ID及粗粒度产品类别，为多维度分析提供了丰富特征。值得注意的是，不同语言间评论长度和产品类别分布存在差异，例如中文评论平均字符数较短且集中于图书类别，这为研究语言特异性对分类性能的影响提供了天然实验场。

使用方法

该数据集主要服务于跨语言文本分类模型的训练与评估，尤其适用于监督学习与零样本跨语言迁移学习场景。研究人员可基于评论文本、标题及产品类别信息，构建多语言BERT等预训练模型的微调流程，以预测星级评分或进行情感二分类。在零样本迁移实验中，模型可在单一语言数据上训练后直接应用于其他语言测试集，从而评估跨语言泛化能力。数据集的标准化分割确保了实验的可复现性，而均方误差（MAE）作为主要评估指标，兼顾了评级的有序性，较传统准确率更能反映模型性能。此外，数据集可通过AWS开放数据平台直接访问，为学术研究提供了便捷支持。

背景与挑战

背景概述

在自然语言处理领域，多语言文本分类作为跨语言信息处理的核心任务，长期以来受限于高质量、大规模标注数据的稀缺。Multilingual Amazon Reviews Corpus (MARC) 应运而生，由华盛顿大学、艾伦人工智能研究所及亚马逊的研究团队于2020年联合发布，旨在构建一个涵盖英语、日语、德语、法语、西班牙语和中文的平衡评论数据集。该数据集聚焦于多语言情感分析与零样本跨语言迁移学习，通过精细的采样与语言检测机制，确保了各语言评论在星级评分上的均匀分布。MARC的推出不仅填补了现有多语言语料库在规模与可访问性上的空白，还为跨语言模型评估提供了标准化基准，显著推动了多语言NLP研究的发展。

当前挑战

MARC致力于解决多语言情感分类中的核心挑战，即如何在缺乏目标语言标注数据的情况下，实现跨语言情感预测的准确迁移。这一任务面临语言结构差异、文化语境多样性以及评分尺度主观性等固有难题。在数据构建过程中，研究团队需克服多重障碍：首先，原始评论数据存在语言与市场区域不匹配的现象，需借助语言检测算法进行精确过滤；其次，为确保数据质量与平衡性，必须实施严格的采样策略，限制同一产品或用户的评论数量，并剔除低质量文本；此外，处理不同语言间的字符长度、分词方式及产品类别分布差异，也增加了数据标准化与一致性维护的复杂度。

常用场景

经典使用场景

在跨语言自然语言处理领域，多语言文本分类研究长期受限于高质量数据集的稀缺性。Multilingual Amazon Reviews Corpus (MARC) 以其涵盖英语、日语、德语、法语、西班牙语和中文六种语言的均衡评论文本，成为该领域经典的基准数据集。研究者常利用其大规模训练集（每种语言20万条评论）与标准化划分（训练集、开发集、测试集），系统评估多语言预训练模型在细粒度星级预测任务上的性能，尤其关注模型在跨语言场景下的泛化能力。

衍生相关工作

MARC 的发布催生了一系列围绕多语言表征学习的创新研究。许多工作基于该数据集探索了多语言 BERT 模型在零样本跨语言迁移中的优化策略，如通过对抗学习增强语境嵌入的跨语言对齐能力。同时，该数据集也被用于评估新兴的跨语言预训练模型（如 XLM-R）在真实商业文本上的适应性，促进了模型架构与训练方法的迭代。部分研究进一步扩展了 MARC 的应用边界，将其用于多语言摘要生成、跨语言推荐系统等衍生任务，丰富了数据集的研究生态。

数据集最近研究