davanstrien/test_imdb_embedd
收藏Hugging Face2023-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/test_imdb_embedd
下载链接
链接失效反馈官方服务:
资源简介:
IMDB电影评论数据集是一个用于情感分类的文本分类数据集。数据集包含50,000个无监督样本和25,000个训练样本以及25,000个测试样本。每个样本包含一段文本和一个标签,标签分为负面(neg)和正面(pos)两类。数据集的来源是IMDB,语言为英语,且是单语言的。数据集的大小在10K到100K之间,适用于嵌入任务。评估指标包括准确率、F1分数、精确率和召回率,分别有宏平均、微平均和加权平均三种计算方式。
IMDB电影评论数据集是一个用于情感分类的文本分类数据集。数据集包含50,000个无监督样本和25,000个训练样本以及25,000个测试样本。每个样本包含一段文本和一个标签,标签分为负面(neg)和正面(pos)两类。数据集的来源是IMDB,语言为英语,且是单语言的。数据集的大小在10K到100K之间,适用于嵌入任务。评估指标包括准确率、F1分数、精确率和召回率,分别有宏平均、微平均和加权平均三种计算方式。
提供机构:
davanstrien
原始信息汇总
数据集概述
基本信息
- 名称: IMDB
- 语言: 英语(en)
- 许可证: 其他(other)
- 多语言性: 单语(monolingual)
- 大小: 10K<n<100K
- 来源数据集: imdb
- 任务类别: 文本分类(text-classification)
- 任务ID: 情感分类(sentiment-classification)
- PapersWithCode ID: imdb-movie-reviews
数据集结构
- 特征:
- text: 数据类型为字符串(string)
- label: 数据类型为分类标签,包含两个类别:
- 0: neg
- 1: pos
- 配置名称: plain_text
- 分割:
- train: 25000个样本,33432835字节
- test: 25000个样本,32650697字节
- unsupervised: 50000个样本,67106814字节
- 下载大小: 84125825字节
- 数据集大小: 133190346字节
评估指标
- 任务: 文本分类(text-classification)
- 训练与评估分割:
- 训练分割: train
- 评估分割: test
- 评估指标:
- Accuracy
- F1 macro
- F1 micro
- F1 weighted
- Precision macro
- Precision micro
- Precision weighted
- Recall macro
- Recall micro
- Recall weighted



