davanstrien/test_imdb_embedd

Name: davanstrien/test_imdb_embedd
Creator: davanstrien
Published: 2023-07-13 10:57:00
License: 暂无描述

Hugging Face2023-07-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/davanstrien/test_imdb_embedd

下载链接

链接失效反馈

官方服务：

资源简介：

IMDB电影评论数据集是一个用于情感分类的文本分类数据集。数据集包含50,000个无监督样本和25,000个训练样本以及25,000个测试样本。每个样本包含一段文本和一个标签，标签分为负面（neg）和正面（pos）两类。数据集的来源是IMDB，语言为英语，且是单语言的。数据集的大小在10K到100K之间，适用于嵌入任务。评估指标包括准确率、F1分数、精确率和召回率，分别有宏平均、微平均和加权平均三种计算方式。

提供机构：

davanstrien

原始信息汇总

数据集概述

基本信息

名称: IMDB
语言: 英语（en）
许可证: 其他（other）
多语言性: 单语（monolingual）
大小: 10K<n<100K
来源数据集: imdb
任务类别: 文本分类（text-classification）
任务ID: 情感分类（sentiment-classification）
PapersWithCode ID: imdb-movie-reviews

数据集结构

特征:
- text: 数据类型为字符串（string）
- label: 数据类型为分类标签，包含两个类别：
  - 0: neg
  - 1: pos
配置名称: plain_text
分割:
- train: 25000个样本，33432835字节
- test: 25000个样本，32650697字节
- unsupervised: 50000个样本，67106814字节
下载大小: 84125825字节
数据集大小: 133190346字节

评估指标

任务: 文本分类（text-classification）
训练与评估分割:
- 训练分割: train
- 评估分割: test
评估指标:
- Accuracy
- F1 macro
- F1 micro
- F1 weighted
- Precision macro
- Precision micro
- Precision weighted
- Recall macro
- Recall micro
- Recall weighted

5,000+

优质数据集

54 个

任务类型

进入经典数据集