five

CyranoB/polarity

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyranoB/polarity
下载链接
链接失效反馈
官方服务:
资源简介:
Amazon Review Polarity数据集包含来自亚马逊的评论,时间跨度18年,截至2013年3月,包含约3500万条评论。每条评论包括产品和用户信息、评分以及纯文本评论。数据集主要用于文本分类任务,特别是情感分类,即根据评论内容和标题预测正确的星级评分。数据集结构包括标题、内容和标签,标签为1(正面)或0(负面)。数据集分为训练集和测试集,每个类别有180万条训练样本和20万条测试样本。数据集的创建是为了作为文本分类基准,相关论文为Xiang Zhang等人的《Character-level Convolutional Networks for Text Classification》。
提供机构:
CyranoB
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: Amazon Review Polarity
  • 数据集概要: 该数据集包含亚马逊网站上的评论,涵盖了18年的时间跨度,包含约3500万条评论,直至2013年3月。每条评论包括产品信息、用户信息、评分和纯文本评论。
  • 支持的任务: 主要用于文本分类任务,特别是情感分类,即根据内容和标题预测正确的星级评分。
  • 语言: 主要为英语。

数据集结构

  • 数据实例: 每个数据点包括标题、内容和相应的标签。
  • 数据字段:
    • title: 包含评论标题的字符串。
    • content: 包含评论内容的字符串。
    • label: 标签,1表示正面评价,0表示负面评价。
  • 数据分割: 数据集将评分1和2视为负面,评分4和5视为正面,评分3的样本被忽略。每类包含1,800,000个训练样本和200,000个测试样本。

数据集创建

  • 数据集创建理由: 由Xiang Zhang创建,用于文本分类基准测试。
  • 许可证信息: Apache License 2.0
  • 引用信息:
    • McAuley, Julian, and Jure Leskovec. "Hidden factors and hidden topics: understanding rating dimensions with review text." In Proceedings of the 7th ACM conference on Recommender systems, pp. 165-172. 2013.
    • Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015)

贡献者

  • 感谢@hfawaz添加此数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作