CyranoB/polarity
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyranoB/polarity
下载链接
链接失效反馈官方服务:
资源简介:
Amazon Review Polarity数据集包含来自亚马逊的评论,时间跨度18年,截至2013年3月,包含约3500万条评论。每条评论包括产品和用户信息、评分以及纯文本评论。数据集主要用于文本分类任务,特别是情感分类,即根据评论内容和标题预测正确的星级评分。数据集结构包括标题、内容和标签,标签为1(正面)或0(负面)。数据集分为训练集和测试集,每个类别有180万条训练样本和20万条测试样本。数据集的创建是为了作为文本分类基准,相关论文为Xiang Zhang等人的《Character-level Convolutional Networks for Text Classification》。
提供机构:
CyranoB
原始信息汇总
数据集概述
数据集描述
- 数据集名称: Amazon Review Polarity
- 数据集概要: 该数据集包含亚马逊网站上的评论,涵盖了18年的时间跨度,包含约3500万条评论,直至2013年3月。每条评论包括产品信息、用户信息、评分和纯文本评论。
- 支持的任务: 主要用于文本分类任务,特别是情感分类,即根据内容和标题预测正确的星级评分。
- 语言: 主要为英语。
数据集结构
- 数据实例: 每个数据点包括标题、内容和相应的标签。
- 数据字段:
- title: 包含评论标题的字符串。
- content: 包含评论内容的字符串。
- label: 标签,1表示正面评价,0表示负面评价。
- 数据分割: 数据集将评分1和2视为负面,评分4和5视为正面,评分3的样本被忽略。每类包含1,800,000个训练样本和200,000个测试样本。
数据集创建
- 数据集创建理由: 由Xiang Zhang创建,用于文本分类基准测试。
- 许可证信息: Apache License 2.0
- 引用信息:
- McAuley, Julian, and Jure Leskovec. "Hidden factors and hidden topics: understanding rating dimensions with review text." In Proceedings of the 7th ACM conference on Recommender systems, pp. 165-172. 2013.
- Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015)
贡献者
- 感谢@hfawaz添加此数据集。



