EMNIST-Balanced|手写文字识别数据集|图像识别数据集
收藏数据集概述
EMNIST系列
- EMNIST-Balanced: 包含131,600个字符,分为47个平衡类别。
- EMNIST-ByClass: 包含814,255个字符,分为62个不平衡类别。
- EMNIST-ByMerge: 包含814,255个字符,分为47个不平衡类别。
- EMNIST-Digits: 包含280,000个字符,分为10个平衡类别(仅数字)。
- EMNIST-Letters: 包含145,600个字符,分为26个平衡类别(仅字母)。
- EMNIST-MNIST: 包含70,000个字符,分为10个平衡类别(等同于
keras.datasets.mnist
)。
KMNIST系列
- KMNIST-KMNIST: 包含70,000个28x28灰度图像,为日本Kuzushiji字符。
- KMNIST-K49: 包含270,912个图像,分为49个类别。
SVHN系列
- SVHN-Normal: 包含73,257个训练图像和26,032个测试图像,非商业用途。
- SVHN-Extra: 包含604,388个训练图像和26,032个测试图像,非商业用途。
其他数据集
- STL-10: 包含5,000个训练图像和8,000个测试图像,共10个类别。
- Iris: 包含150个实例,分为3个类别,每个类别50个实例。
- Wine Quality dataset: 包含葡萄酒的物理化学测试数据,用于模型葡萄酒质量。
- USPS Handwritten Digits Dataset: 包含数千个16x16灰度图像的手写数字。
数据集使用方法
依赖
- 确保安装了TensorFlow。
安装步骤
- 使用PIP安装:
pip install extra-keras-datasets
。
数据集加载示例
EMNIST-Balanced
python from extra_keras_datasets import emnist (input_train, target_train), (input_test, target_test) = emnist.load_data(type=balanced)
KMNIST-KMNIST
python from extra_keras_datasets import kmnist (input_train, target_train), (input_test, target_test) = kmnist.load_data(type=kmnist)
SVHN-Normal
python from extra_keras_datasets import svhn (input_train, target_train), (input_test, target_test) = svhn.load_data(type=normal)
STL-10
python from extra_keras_datasets import stl10 (input_train, target_train), (input_test, target_test) = stl10.load_data()
Iris
python from extra_keras_datasets import iris (input_train, target_train), (input_test, target_test) = iris.load_data(test_split=0.2)
Wine Quality dataset
python from extra_keras_datasets import wine_quality (input_train, target_train), (input_test, target_test) = wine_quality.load_data(which_data=both, test_split=0.2, shuffle=True)
USPS Handwritten Digits Dataset
python from extra_keras_datasets import usps (input_train, target_train), (input_test, target_test) = usps.load_data()

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录