five

MinQan/amazon_reviews_multi_VN|多语言文本处理数据集|情感分析数据集

收藏
hugging_face2024-06-04 更新2024-06-12 收录
多语言文本处理
情感分析
下载链接:
https://hf-mirror.com/datasets/MinQan/amazon_reviews_multi_VN
下载链接
链接失效反馈
资源简介:
该数据集名为多语言亚马逊评论语料库,主要用于多语言文本分类任务。数据集包含英语、日语、德语、法语、中文和西班牙语的亚马逊产品评论,收集时间跨度为2015年11月1日至2019年11月1日。每条记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和产品类别。数据集在每种语言中的星级评分分布是平衡的,每个星级评分占每种语言评论的20%。每种语言的训练集、开发集和测试集分别包含200,000、5,000和5,000条评论。此外,数据集还应用了语言检测算法以确保评论语言的准确性。

该数据集名为多语言亚马逊评论语料库,主要用于多语言文本分类任务。数据集包含英语、日语、德语、法语、中文和西班牙语的亚马逊产品评论,收集时间跨度为2015年11月1日至2019年11月1日。每条记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和产品类别。数据集在每种语言中的星级评分分布是平衡的,每个星级评分占每种语言评论的20%。每种语言的训练集、开发集和测试集分别包含200,000、5,000和5,000条评论。此外,数据集还应用了语言检测算法以确保评论语言的准确性。
提供机构:
MinQan
原始信息汇总

数据集概述

数据集名称

  • 名称: The Multilingual Amazon Reviews Corpus
  • 别名: amazon_reviews_multi

数据集摘要

  • 内容: 包含英语、日语、德语、法语、中文和西班牙语的亚马逊产品评论数据。每个记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和产品粗粒度类别。
  • 时间范围: 数据收集自2015年11月1日至2019年11月1日。
  • 数据平衡: 每种星级评分在每种语言中占比20%。

支持的任务

  • 任务类型: 摘要生成、文本生成、填空、文本分类等。
  • 具体任务: 文本评分、语言建模、掩码语言建模、情感分类、情感评分、主题分类等。

语言信息

  • 语言: 英语、日语、德语、法语、中文、西班牙语。
  • 语言检测: 使用Bojanowski et al. (2017)的算法进行语言检测,确保评论文本的语言正确性。

数据集结构

  • 数据实例: 每个实例对应一个评论,包含review_id、product_id、reviewer_id、stars、review_body、review_title、language和product_category。
  • 数据字段:
    • review_id: 字符串,评论标识符。
    • product_id: 字符串,产品标识符。
    • reviewer_id: 字符串,评论者标识符。
    • stars: 整数,星级评分(1-5)。
    • review_body: 字符串,评论正文。
    • review_title: 字符串,评论标题。
    • language: 字符串,评论语言。
    • product_category: 字符串,产品类别。
  • 数据分割: 每个语言配置包含训练集、验证集和测试集。all_languages分割是所有语言相应分割的串联。

数据集创建

  • 动机: 推动非英语语言的情感分析和文本分类研究。
  • 数据收集: 从美国、日本、德国、法国、西班牙和中国市场收集评论。
  • 数据处理: 应用语言检测算法确保评论语言正确,移除非目标语言的评论。

使用数据注意事项

  • 个人和敏感信息: 根据许可条款,不得将评论内容与个人信息关联或尝试确定评论作者的身份。
  • 社会影响: 鼓励非英语语言的文本分类研究,但目前包含的语言均为资源较丰富的语言。
  • 偏见讨论: 数据集仅包含经过验证的购买评论,并遵循亚马逊社区指南。
  • 其他限制: 为了平衡星级分布,某些类型的语言可能相对于原始评论分布被过度或不足代表。

附加信息

  • 数据集管理者: 由Phillip Keung, Yichao Lu, György Szarvas, 和 Noah A. Smith发布,由亚马逊管理。
  • 许可信息: 数据集仅限于非商业学术研究使用。
  • 引用信息: 如使用此数据集,请引用Phillip Keung等人的相关论文。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过从亚马逊的美国、日本、德国、法国、西班牙和中国市场收集用户评论构建而成,涵盖了英语、日语、德语、法语、西班牙语和中文六种语言。为确保语言的准确性,采用了基于Bojanowski等人(2017)的语言检测算法,过滤掉非目标语言的评论。数据集经过平衡处理,每种语言的评论在各个星级评分中均匀分布,确保了分类任务的公平性。
特点
该数据集的显著特点在于其多语言性和平衡性。它包含了六种语言的评论,涵盖了多种产品类别,且每种语言的评论在训练、验证和测试集中的分布均匀。此外,数据集中的评论经过语言检测和过滤,确保了语言的准确性,为多语言文本分类和情感分析提供了高质量的数据支持。
使用方法
该数据集适用于多种自然语言处理任务,包括文本分类、情感分析、语言建模等。用户可以根据需要选择特定语言的配置,或使用所有语言的组合。数据集提供了详细的字段信息,如评论ID、产品ID、评论者ID、星级评分、评论内容、评论标题、语言和产品类别,便于用户进行深入分析和模型训练。
背景与挑战
背景概述
亚马逊多语言评论语料库(The Multilingual Amazon Reviews Corpus)由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith等人于2020年发布,旨在推动非英语语言的情感分析和文本分类研究。该数据集收集了2015年11月至2019年11月期间,来自美国、日本、德国、法国、西班牙和中国亚马逊市场的产品评论,涵盖英语、日语、德语、法语、西班牙语和中文。每个评论记录包含评论文本、标题、星级评分、匿名化的评论者ID、产品ID以及产品类别。数据集通过语言检测算法确保评论语言的准确性,并进行了平衡处理,使得每种语言的每个星级评分占比均为20%。该数据集的发布为多语言自然语言处理研究提供了宝贵的资源,尤其在跨语言情感分析和文本分类领域具有重要意义。
当前挑战
亚马逊多语言评论语料库在构建过程中面临多项挑战。首先,数据集需要确保评论语言的准确性,因此采用了语言检测算法,但仍存在少量语言误判的情况。其次,数据集的平衡性处理虽然有助于分类任务,但也可能导致某些语言的特定类型评论在原始分布中被过度或不足代表。此外,数据集的非商业使用限制较为严格,限制了其在商业研究中的应用。最后,尽管数据集涵盖了多种语言,但这些语言大多属于高资源语言,对于低资源语言的研究支持仍然有限。
常用场景
经典使用场景
在多语言文本分类和情感分析领域,MinQan/amazon_reviews_multi_VN数据集的经典应用场景主要集中在跨语言情感分类和产品评论的自动摘要生成。该数据集包含了多种语言的亚马逊产品评论,涵盖了英语、日语、德语、法语、中文和西班牙语,为研究者提供了丰富的多语言文本资源。通过该数据集,研究者可以训练模型以识别不同语言中的情感倾向,并生成简洁的评论摘要,从而提升跨语言文本处理的能力。
衍生相关工作
基于MinQan/amazon_reviews_multi_VN数据集,研究者已开展了多项相关工作,包括多语言情感分类模型的开发、跨语言文本生成技术的研究以及多语言文本摘要的自动生成。这些工作不仅推动了多语言自然语言处理技术的发展,还为其他领域的研究提供了新的思路和方法。例如,基于该数据集的跨语言情感分析模型已被应用于社交媒体监控和消费者行为分析,取得了显著的效果。
数据集最近研究
最新研究方向
近年来,多语言文本分类和情感分析领域取得了显著进展,MinQan/amazon_reviews_multi_VN数据集的引入为这一领域提供了宝贵的资源。该数据集涵盖了英语、日语、德语、法语、中文和西班牙语等多种语言的亚马逊产品评论,为跨语言情感分析和文本分类研究提供了丰富的语料库。研究者们利用该数据集进行多语言模型的训练与评估,探索如何在不依赖单一语言数据的情况下提升模型的泛化能力。此外,该数据集还支持多种任务,如文本生成、摘要生成和掩码语言建模,进一步推动了多语言自然语言处理技术的发展。通过分析不同语言的评论数据,研究者们能够揭示语言间的情感表达差异,并为跨文化情感分析提供新的视角。这一研究方向不仅有助于提升多语言文本处理的准确性,还为全球市场的产品反馈分析提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Eurovision Song Contest Dataset

Eurovision Song Contest数据集是一个免费提供的数据集,包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据,这些歌曲参与了从1956年到2023年的Eurovision Song Contest。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录