five

Multilingual Amazon Reviews Corpus (MARC)

收藏
arXiv2020-10-06 更新2024-06-21 收录
下载链接:
https://registry.opendata.aws/amazon-reviews-ml/
下载链接
链接失效反馈
官方服务:
资源简介:
Multilingual Amazon Reviews Corpus (MARC) 是一个大规模的多语言文本分类数据集,包含2015至2019年间收集的英语、日语、德语、法语、西班牙语和中文的亚马逊商品评论。数据集每条记录包括评论文本、标题、星级评分、匿名化的评论者ID和产品ID以及粗粒度的产品类别。MARC数据集通过AWS Open Datasets平台提供,旨在支持多语言文本分类研究,特别是零样本跨语言转移学习。数据集经过精心处理,确保每种语言的每种星级评分占比均衡,且训练、开发和测试集划分明确,以促进模型的训练和评估。

Multilingual Amazon Reviews Corpus (MARC) is a large-scale multilingual text classification dataset containing Amazon product reviews collected between 2015 and 2019 across six languages: English, Japanese, German, French, Spanish, and Chinese. Each record in the dataset includes review text, review title, star rating, anonymized reviewer ID and product ID, as well as coarse-grained product categories. The MARC dataset is provided via the AWS Open Datasets platform, aiming to support multilingual text classification research, particularly zero-shot cross-lingual transfer learning. The dataset has been rigorously processed to ensure a balanced distribution of each star rating for every language, with clear splits for training, development and test sets to facilitate model training and evaluation.
提供机构:
亚马逊 †华盛顿大学 ‡艾伦人工智能研究所
创建时间:
2020-10-06
搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言文本分类研究领域,数据集的构建需兼顾语言多样性与数据质量。Multilingual Amazon Reviews Corpus (MARC) 的构建过程体现了严谨的数据筛选与处理策略。该数据集从亚马逊美国、日本、德国、法国、西班牙和中国市场收集了2015年至2019年间的已验证购买评论,涵盖英语、日语、德语、法语、西班牙语和中文六种语言。为确保语言纯净性,研究团队应用了语言检测算法,仅保留目标语言评论,并通过词汇过滤排除低频词汇的干扰。此外,数据集中对同一产品或同一评论者的评论数量设定了上限,以平衡数据分布,最终形成了包含训练集、开发集和测试集的标准化分割,每部分均按五星评级均衡采样。
特点
MARC 数据集在跨语言文本分类任务中展现出显著的结构化优势。其核心特点在于语言覆盖的广泛性与数据规模的均衡性,每种语言均包含20万条训练评论、5000条开发评论和5000条测试评论,且五星评级分布严格保持各占20%,有效避免了类别不平衡问题。数据集中每条记录均包含评论文本、标题、星级评分、匿名评论者ID、匿名产品ID及粗粒度产品类别,为多维度分析提供了丰富特征。值得注意的是,不同语言间评论长度和产品类别分布存在差异,例如中文评论平均字符数较短且集中于图书类别,这为研究语言特异性对分类性能的影响提供了天然实验场。
使用方法
该数据集主要服务于跨语言文本分类模型的训练与评估,尤其适用于监督学习与零样本跨语言迁移学习场景。研究人员可基于评论文本、标题及产品类别信息,构建多语言BERT等预训练模型的微调流程,以预测星级评分或进行情感二分类。在零样本迁移实验中,模型可在单一语言数据上训练后直接应用于其他语言测试集,从而评估跨语言泛化能力。数据集的标准化分割确保了实验的可复现性,而均方误差(MAE)作为主要评估指标,兼顾了评级的有序性,较传统准确率更能反映模型性能。此外,数据集可通过AWS开放数据平台直接访问,为学术研究提供了便捷支持。
背景与挑战
背景概述
在自然语言处理领域,多语言文本分类作为跨语言信息处理的核心任务,长期以来受限于高质量、大规模标注数据的稀缺。Multilingual Amazon Reviews Corpus (MARC) 应运而生,由华盛顿大学、艾伦人工智能研究所及亚马逊的研究团队于2020年联合发布,旨在构建一个涵盖英语、日语、德语、法语、西班牙语和中文的平衡评论数据集。该数据集聚焦于多语言情感分析与零样本跨语言迁移学习,通过精细的采样与语言检测机制,确保了各语言评论在星级评分上的均匀分布。MARC的推出不仅填补了现有多语言语料库在规模与可访问性上的空白,还为跨语言模型评估提供了标准化基准,显著推动了多语言NLP研究的发展。
当前挑战
MARC致力于解决多语言情感分类中的核心挑战,即如何在缺乏目标语言标注数据的情况下,实现跨语言情感预测的准确迁移。这一任务面临语言结构差异、文化语境多样性以及评分尺度主观性等固有难题。在数据构建过程中,研究团队需克服多重障碍:首先,原始评论数据存在语言与市场区域不匹配的现象,需借助语言检测算法进行精确过滤;其次,为确保数据质量与平衡性,必须实施严格的采样策略,限制同一产品或用户的评论数量,并剔除低质量文本;此外,处理不同语言间的字符长度、分词方式及产品类别分布差异,也增加了数据标准化与一致性维护的复杂度。
常用场景
经典使用场景
在跨语言自然语言处理领域,多语言文本分类研究长期受限于高质量数据集的稀缺性。Multilingual Amazon Reviews Corpus (MARC) 以其涵盖英语、日语、德语、法语、西班牙语和中文六种语言的均衡评论文本,成为该领域经典的基准数据集。研究者常利用其大规模训练集(每种语言20万条评论)与标准化划分(训练集、开发集、测试集),系统评估多语言预训练模型在细粒度星级预测任务上的性能,尤其关注模型在跨语言场景下的泛化能力。
衍生相关工作
MARC 的发布催生了一系列围绕多语言表征学习的创新研究。许多工作基于该数据集探索了多语言 BERT 模型在零样本跨语言迁移中的优化策略,如通过对抗学习增强语境嵌入的跨语言对齐能力。同时,该数据集也被用于评估新兴的跨语言预训练模型(如 XLM-R)在真实商业文本上的适应性,促进了模型架构与训练方法的迭代。部分研究进一步扩展了 MARC 的应用边界,将其用于多语言摘要生成、跨语言推荐系统等衍生任务,丰富了数据集的研究生态。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言文本分类研究正日益受到关注,而Multilingual Amazon Reviews Corpus (MARC)作为大规模多语言评论数据集,为这一方向提供了关键资源。该数据集的最新研究聚焦于零样本跨语言迁移学习,利用多语言预训练模型如mBERT,探索在缺乏目标语言监督的情况下,如何将源语言的分类性能有效迁移至其他语言。此外,研究还关注数据集的平衡性和噪声处理,通过引入平均绝对误差(MAE)作为评估指标,以更准确地反映星级评分的序数特性。这些进展不仅推动了多语言情感分析的实际应用,还为全球电商平台的跨语言评论分析提供了理论支撑,促进了自然语言处理技术的国际化发展。
相关研究论文
  • 1
    The Multilingual Amazon Reviews Corpus亚马逊 †华盛顿大学 ‡艾伦人工智能研究所 · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作