Large-scale CelebFaces Attributes (CelebA), CIFAR-10 and CIFAR-100, Infinite MNIST, Labeled Faces in the Wild, MNIST handwritten digits, Multi-view Stereo Correspondence Dataset, The STL-10 dataset

github2019-08-08 更新2024-05-31 收录

下载链接：

https://github.com/andersbll/datasetfetch

下载链接

链接失效反馈

官方服务：

资源简介：

提供了一系列机器学习数据集，包括大规模名人脸部属性数据集、CIFAR图像数据集、无限规模的MNIST手写数字数据集、标记的人脸在野外的数据集、标准MNIST手写数字数据集、多视图立体对应数据集以及STL-10数据集。

A series of machine learning datasets are provided, including a large-scale celebrity facial attribute dataset, the CIFAR image dataset, an infinite-scale MNIST handwritten digit dataset, the labeled faces in the wild dataset, the standard MNIST handwritten digit dataset, a multi-view stereo correspondence dataset, and the STL-10 dataset.

创建时间：

2016-07-23

原始信息汇总

数据集概述

datasetfetch 是一个用于自动下载、解压并将机器学习数据集加载到Python中的工具。数据集通常以NumPy数组的形式加载。对于内存无法容纳的大型数据集，提供了访问部分数据集的功能。

可用数据集列表

Large-scale CelebFaces Attributes (CelebA)
- 来源：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
CIFAR-10 and CIFAR-100
- 来源：http://www.cs.toronto.edu/~kriz/cifar.html
Infinite MNIST (formerly known as MNIST8M)
- 来源：http://leon.bottou.org/projects/infimnist
Labeled Faces in the Wild
- 来源：http://vis-www.cs.umass.edu/lfw/
MNIST handwritten digits
- 来源：http://yann.lecun.com/exdb/mnist/
Multi-view Stereo Correspondence Dataset
- 来源：http://cs.ubc.ca/~mbrown/patchdata/patchdata.html
The STL-10 dataset
- 来源：http://cs.stanford.edu/~acoates/stl10

搜集汇总

数据集介绍

构建方式

Large-scale CelebFaces Attributes (CelebA)等数据集的构建，是通过自动化下载、解压和加载过程，将数据以NumPy数组的格式导入Python环境中，便于用户进行预处理和机器学习管道的数据传递。数据集通常根据不同的应用需求，设计为可容纳于内存或支持部分数据访问的形式，以适应大规模数据处理的需要。

特点

该数据集集合具备易于访问和使用特性，涵盖了从人脸属性、图像识别到手写数字识别等多种类型的数据。每个数据集都根据其独特性进行了优化，例如CelebA拥有大量具有标签的人脸图像，CIFAR-10和CIFAR-100针对不同复杂度的图像分类任务，Infinite MNIST则提供了扩展的MNIST数据，适用于大规模学习场景。

使用方法

用户可通过`datasetfetch`工具轻松获取这些数据集，并根据需要对其进行预处理。数据集加载后，用户需自行优化数据以适配其机器学习工作流。加载数据时，如果数据集过大无法一次性载入内存，工具提供了访问数据集部分的机制，以便高效地实现数据处理。

背景与挑战

背景概述

Large-scale CelebFaces Attributes (CelebA) 数据集由香港中文大学多媒体实验室于2014年创建，是面部识别和属性分析领域的重要资源。CIFAR-10和CIFAR-100数据集由多伦多大学计算机科学系于2004年推出，被广泛应用于图像分类研究。Infinite MNIST数据集由纽约大学Courant研究所的Leon Bottou教授提供，是对传统MNIST手写数字数据集的扩展。Labeled Faces in the Wild数据集由麻省大学计算机视觉实验室构建，是研究人脸识别和验证的关键数据集。MNIST手写数字数据集由纽约大学Courant研究所的Yann LeCun教授创建，是模式识别领域最著名的数据集之一。Multi-view Stereo Correspondence Dataset由不列颠哥伦比亚大学计算机科学系的Mark Brown教授构建，用于立体视觉研究。STL-10数据集由斯坦福大学的Adam Coates等人开发，是用于图像识别任务的一个小型数据集。这些数据集在机器学习和计算机视觉领域产生了深远的影响。

当前挑战

CelebA数据集在面部属性标注的准确性上存在挑战，CIFAR数据集面临的是如何处理图像中的小变化和类内差异。Infinite MNIST数据集的挑战在于如何处理大规模数据集的内存和计算问题。Labeled Faces in the Wild数据集的挑战在于真实世界图像的多样性和复杂性。MNIST数据集的挑战是如何在简单的数据上实现高精度识别。Multi-view Stereo Correspondence Dataset的挑战在于从多个视角准确匹配图像特征。STL-10数据集的挑战则在于如何从有限的数据中学习有效的特征表示。构建这些数据集时，研究人员还需克服数据收集、标注质量控制和数据隐私等挑战。

常用场景

经典使用场景

在计算机视觉研究领域，Large-scale CelebFaces Attributes (CelebA)等数据集被广泛用于图像识别、分类与属性预测等任务。CelebA因其包含丰富的面部属性而成为面部识别和属性分析的经典使用案例；CIFAR-10和CIFAR-100则因其多样性在图像分类任务中占据重要地位；Infinite MNIST提供了无限扩展的MNIST版本，适用于强化学习和在线学习；Labeled Faces in the Wild是面部识别研究中的标准数据集；MNIST手写数字数据集是手写数字识别的经典案例；Multi-view Stereo Correspondence Dataset用于立体视觉和三维重建；STL-10数据集常用于图像分类和半监督学习。

衍生相关工作

基于这些数据集，学术界衍生出大量经典工作。如CelebA数据集催生了大量关于面部属性合成和编辑的研究；CIFAR数据集促进了深度学习在图像分类中的应用；MNIST数据集启发了对扩展数据集的研究，以及对抗性样本和模型鲁棒性的探讨。这些数据集成为了学术研究的基石，推动了计算机视觉领域的进步。

数据集最近研究