five

davanstrien/test_imdb_embedd

收藏
Hugging Face2023-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/test_imdb_embedd
下载链接
链接失效反馈
官方服务:
资源简介:
IMDB电影评论数据集是一个用于情感分类的文本分类数据集。数据集包含50,000个无监督样本和25,000个训练样本以及25,000个测试样本。每个样本包含一段文本和一个标签,标签分为负面(neg)和正面(pos)两类。数据集的来源是IMDB,语言为英语,且是单语言的。数据集的大小在10K到100K之间,适用于嵌入任务。评估指标包括准确率、F1分数、精确率和召回率,分别有宏平均、微平均和加权平均三种计算方式。

IMDB电影评论数据集是一个用于情感分类的文本分类数据集。数据集包含50,000个无监督样本和25,000个训练样本以及25,000个测试样本。每个样本包含一段文本和一个标签,标签分为负面(neg)和正面(pos)两类。数据集的来源是IMDB,语言为英语,且是单语言的。数据集的大小在10K到100K之间,适用于嵌入任务。评估指标包括准确率、F1分数、精确率和召回率,分别有宏平均、微平均和加权平均三种计算方式。
提供机构:
davanstrien
原始信息汇总

数据集概述

基本信息

  • 名称: IMDB
  • 语言: 英语(en)
  • 许可证: 其他(other)
  • 多语言性: 单语(monolingual)
  • 大小: 10K<n<100K
  • 来源数据集: imdb
  • 任务类别: 文本分类(text-classification)
  • 任务ID: 情感分类(sentiment-classification)
  • PapersWithCode ID: imdb-movie-reviews

数据集结构

  • 特征:
    • text: 数据类型为字符串(string)
    • label: 数据类型为分类标签,包含两个类别:
      • 0: neg
      • 1: pos
  • 配置名称: plain_text
  • 分割:
    • train: 25000个样本,33432835字节
    • test: 25000个样本,32650697字节
    • unsupervised: 50000个样本,67106814字节
  • 下载大小: 84125825字节
  • 数据集大小: 133190346字节

评估指标

  • 任务: 文本分类(text-classification)
  • 训练与评估分割:
    • 训练分割: train
    • 评估分割: test
  • 评估指标:
    • Accuracy
    • F1 macro
    • F1 micro
    • F1 weighted
    • Precision macro
    • Precision micro
    • Precision weighted
    • Recall macro
    • Recall micro
    • Recall weighted
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作