ben-epstein/amazon_polarity_10_pct
收藏Hugging Face2023-09-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ben-epstein/amazon_polarity_10_pct
下载链接
链接失效反馈官方服务:
资源简介:
这是一个原始Amazon Polarity数据集的10%子集,经过随机打乱,用于快速测试。数据集包含两个类别(负面和正面)的标签,以及每个样本的标题和内容。训练集包含360,000个样本,测试集包含40,000个样本。
This is a direct subset of the Amazon Polarity dataset, downsampled to 10% with a random shuffle. The dataset includes train and test splits, with 360,000 and 40,000 examples respectively. Each example contains three features: label, title, and content. The label is categorized into negative and positive. The dataset is intended for quick testing on Amazon Polarity.
提供机构:
ben-epstein
原始信息汇总
Amazon Polarity 10pct 数据集概述
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
-
特征:
label:类别标签,包含两个类别:negative和positivetitle:字符串类型content:字符串类型
-
数据分割:
- 训练集:
- 字节数:163359702
- 样本数:360000
- 测试集:
- 字节数:18182813
- 样本数:40000
- 训练集:
-
下载大小:120691417 字节
-
数据集大小:181542515 字节
数据集来源
该数据集是原始 Amazon Polarity 数据集的直接子集,随机抽取了10%的数据。



