five

pt-sk/imdb

收藏
Hugging Face2024-06-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pt-sk/imdb
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于二元情感分类的大型电影评论数据集。数据集包含25,000条用于训练和25,000条用于测试的极极性电影评论,以及额外的未标记数据。数据集的结构包括文本和标签两个字段,标签分为neg(负面)和pos(正面)。数据集的大小为133.23 MB,下载文件大小为84.13 MB,总磁盘使用量为217.35 MB。

This is a dataset for binary sentiment classification containing substantially more data than previous benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for testing. There is additional unlabeled data for use as well. The dataset structure includes two fields: text and label, with labels being neg (negative) and pos (positive). The size of the dataset is 133.23 MB, the size of the downloaded dataset files is 84.13 MB, and the total amount of disk used is 217.35 MB.
提供机构:
pt-sk
原始信息汇总

数据集概述

名称: IMDB

描述: 这是一个用于二元情感分类的数据集,包含25,000个用于训练的高度极性电影评论和25,000个用于测试的评论,以及额外的未标记数据。

语言: 英文

许可: 其他

多语言性: 单语

大小: 10K<n<100K

源数据: 原始数据

任务类别: 文本分类

任务ID: 情感分类

数据集结构

数据实例:

  • 文本: 字符串类型
  • 标签: 分类标签,包括neg (0) 和 pos (1)

数据分割:

  • 训练集: 25,000个实例
  • 测试集: 25,000个实例
  • 无监督集: 50,000个实例

数据集创建

注释创建者: 专家生成

语言创建者: 专家生成

数据集使用考虑

评估指标:

  • 准确率
  • F1宏平均
  • F1微平均
  • F1加权平均
  • 精确率宏平均
  • 精确率微平均
  • 精确率加权平均
  • 召回率宏平均
  • 召回率微平均
  • 召回率加权平均
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作