fancyzhx/amazon_polarity

Name: fancyzhx/amazon_polarity
Creator: fancyzhx
Published: 2024-01-09 12:23:33
License: 暂无描述

Hugging Face2024-01-09 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/fancyzhx/amazon_polarity

下载链接

链接失效反馈

官方服务：

资源简介：

Amazon Review Polarity数据集包含亚马逊上的商品评论，主要用于文本分类任务，特别是情感分类。数据集将评分为1和2的评论标记为负面，评分为4和5的评论标记为正面，评分为3的评论被忽略。数据集包含360万条训练数据和40万条测试数据，每条数据包括评论的标题、内容和标签（正面或负面）。数据集由Xiang Zhang创建，并用于文本分类的基准测试。

提供机构：

fancyzhx

原始信息汇总

数据集概述

数据集名称

名称: Amazon Review Polarity
别名: AmazonPolarity

数据集基本信息

语言: 英语 (en)
许可证: Apache-2.0
多语言性: 单语种
大小: 1M<n<10M
源数据: 原始数据
任务类别: 文本分类
任务ID: 情感分类

数据集结构

特征:
- label: 分类标签，0表示负面，1表示正面
- title: 字符串类型，包含评论标题
- content: 字符串类型，包含评论内容
数据分割:
- 训练集: 3600000个样本，总大小1604364432字节
- 测试集: 400000个样本，总大小178176193字节

数据集使用

训练与评估指标:
- 准确率 (Accuracy)
- F1分数 (F1 macro, F1 micro, F1 weighted)
- 精确度 (Precision macro, Precision micro, Precision weighted)
- 召回率 (Recall macro, Recall micro, Recall weighted)

数据集创建

创建者: Xiang Zhang (xiang.zhang@nyu.edu)
用途: 作为文本分类基准，用于论文《Character-level Convolutional Networks for Text Classification》

许可证信息

许可证: Apache License 2.0

引用信息

McAuley, Julian, and Jure Leskovec. "Hidden factors and hidden topics: understanding rating dimensions with review text." In Proceedings of the 7th ACM conference on Recommender systems, pp. 165-172. 2013.
Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015)

搜集汇总

数据集介绍

构建方式

该数据集通过采集亚马逊网站上的商品评论构建而成，涵盖了约3500万条评论，时间跨度达18年。数据集的构建基于情感分类的需求，将评分1和2视为负面评论，评分4和5视为正面评论，忽略了评分3的样本。在训练集和测试集中，每个类别分别包含了180万和20万的样本。

使用方法

使用该数据集时，用户可以从Hugging Face网站下载，并根据提供的train和test文件进行训练和评估。数据集支持文本分类和情感分类任务，用户可以根据自己的需求，利用数据集中的特征进行模型训练和性能评估，如准确率、F1分数等指标。

背景与挑战

背景概述

Amazon Review Polarity数据集，由Xiang Zhang于2013年构建，主要研究人员为Xiang Zhang、Junbo Zhao和Yann LeCun。该数据集源于亚马逊网站上的用户评论，涵盖约3500万条评论，时间跨度18年，主要用于文本分类领域，尤其是情感分析研究。数据集按照评论的情感极性分为正面（4星和5星）与负面（1星和2星），忽略了3星评论，为研究者提供了一个重要的基准数据集，对情感分析领域产生了深远的影响。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：如何从大量非结构化的评论数据中提取有效的情感信息，以及如何处理数据中的噪声和异常值。在使用过程中，研究者面临的挑战包括如何提高分类模型的准确性和泛化能力，以及如何识别和处理数据中可能存在的偏见和局限性。

常用场景

经典使用场景

在自然语言处理领域，fancyzhx/amazon_polarity数据集被广泛用于情感分析的基准测试。该数据集包含了亚马逊商品评论文本，根据评论文本的情感色彩，将其归类为正面或负面，从而训练和评估模型的情感识别能力。

解决学术问题

fancyzhx/amazon_polarity数据集解决了情感分析中的数据标注和模型评估问题。它提供了一个大规模、经过标注的数据集，使得研究者能够在统一的评价标准下，如准确率、F1分数等，对模型进行训练和验证，推动了情感分析领域的研究进展。

实际应用

在实际应用中，fancyzhx/amazon_polarity数据集可用于构建智能客服系统、产品推荐系统等，通过分析用户评论文本的情感倾向，为用户提供更加个性化的服务，增强用户体验。

数据集最近研究