imdb_dataset_offical|文本分类数据集|情感分析数据集
收藏数据集概述
数据集信息
- 特征:
- text: 数据类型为字符串。
- label: 数据类型为分类标签,包含两个类别:
0
: 表示负面情感 (neg
)1
: 表示正面情感 (pos
)
数据集划分
- train:
- 样本数量: 25000
- 数据大小: 32941755 字节
- test:
- 样本数量: 25000
- 数据大小: 32158562 字节
- unsupervised:
- 样本数量: 50000
- 数据大小: 66097970 字节
数据集大小
- 下载大小: 76731910 字节
- 数据集总大小: 131198287 字节
配置
- config_name: default
- 数据文件路径:
- train:
data/train-*
- test:
data/test-*
- unsupervised:
data/unsupervised-*
- train:
- 数据文件路径:

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
Photovoltaic power plant data
包括经纬度、电源板模型、NWP等信息。
github 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录