five

ben-epstein/amazon_polarity_10_pct

收藏
Hugging Face2023-09-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ben-epstein/amazon_polarity_10_pct
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个原始Amazon Polarity数据集的10%子集,经过随机打乱,用于快速测试。数据集包含两个类别(负面和正面)的标签,以及每个样本的标题和内容。训练集包含360,000个样本,测试集包含40,000个样本。

This is a direct subset of the Amazon Polarity dataset, downsampled to 10% with a random shuffle. The dataset includes train and test splits, with 360,000 and 40,000 examples respectively. Each example contains three features: label, title, and content. The label is categorized into negative and positive. The dataset is intended for quick testing on Amazon Polarity.
提供机构:
ben-epstein
原始信息汇总

Amazon Polarity 10pct 数据集概述

数据集配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 测试集:路径为 data/test-*

数据集信息

  • 特征

    • label:类别标签,包含两个类别:negativepositive
    • title:字符串类型
    • content:字符串类型
  • 数据分割

    • 训练集
      • 字节数:163359702
      • 样本数:360000
    • 测试集
      • 字节数:18182813
      • 样本数:40000
  • 下载大小:120691417 字节

  • 数据集大小:181542515 字节

数据集来源

该数据集是原始 Amazon Polarity 数据集的直接子集,随机抽取了10%的数据。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作