james-burton/OrientalMuseum_min5-white-name|博物馆文物数据集|文物分类数据集
收藏数据集概述
数据特征
数据集包含以下特征:
obj_num
: 字符串类型file
: 字符串类型image
: 图像类型root
: 字符串类型description
: 字符串类型label
: 分类标签,包含多个类别,如 Aegis, Ajaeng Holder, Album Painting 等。other_name
: 字符串类型material
: 字符串类型production.period
: 字符串类型production.place
: 字符串类型new_root
: 字符串类型
数据分割
数据集分为三个部分:
train
: 包含 23100 个样本,总大小为 715994709 字节。validation
: 包含 5436 个样本,总大小为 140436728.016 字节。test
: 包含 5436 个样本,总大小为 209313987.068 字节。
数据集大小
- 下载大小:938636292 字节
- 数据集总大小:1065745424.084 字节
配置
config_name
: default- 数据文件路径:
train
: data/train-*validation
: data/validation-*test
: data/test-*
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录