mnist, cifar_10, africa_soil_train_data, sift_10k, BSR_bsds500, fastText_data, wili-2018, declaration_human_rights, lid.176, grid30, grid90

github2024-05-03 更新2024-05-31 收录

下载链接：

https://github.com/mlampros/DataSets

下载链接

链接失效反馈

官方服务：

资源简介：

mnist: 包含70000个样本，每个样本785维（包括类别标签）。cifar_10: 包含60000个样本，每个样本1025维（包括类别标签），数据已从RGB转换为灰度，标准化并四舍五入至2位小数。africa_soil_train_data: 包含1157个样本，每个样本3600维，数据来源于Kaggle竞赛。sift_10k: 包含10000个样本，每个样本128维。BSR_bsds500: 包含500张图像，用于训练、测试和验证。fastText_data: 包含fastText R包所需的数据文件。wili-2018: 包含235000个段落，涵盖235种语言，数据平衡并提供训练-测试分割。declaration_human_rights: 包含联合国人权宣言的中、英、西三种语言版本。lid.176: 包含一个预训练的语言识别模型。grid30: 包含30米分辨率的.shp文件，用于复现CopernicusDEM R包的.RDS文件。grid90: 包含90米分辨率的.shp文件，用于复现CopernicusDEM R包的.RDS文件。

mnist: Contains 70,000 samples, each with 785 dimensions (including class labels). cifar_10: Contains 60,000 samples, each with 1025 dimensions (including class labels), with data converted from RGB to grayscale, normalized, and rounded to two decimal places. africa_soil_train_data: Contains 1,157 samples, each with 3,600 dimensions, sourced from a Kaggle competition. sift_10k: Contains 10,000 samples, each with 128 dimensions. BSR_bsds500: Contains 500 images for training, testing, and validation. fastText_data: Contains data files required for the fastText R package. wili-2018: Contains 235,000 paragraphs covering 235 languages, with balanced data and provided train-test splits. declaration_human_rights: Contains the Chinese, English, and Spanish versions of the United Nations Declaration of Human Rights. lid.176: Contains a pre-trained language identification model. grid30: Contains .shp files with 30-meter resolution for reproducing the .RDS files of the CopernicusDEM R package. grid90: Contains .shp files with 90-meter resolution for reproducing the .RDS files of the CopernicusDEM R package.

创建时间：

2016-06-14

原始信息汇总

数据集概述

数据集列表

数据集名称	行数	列数	备注
mnist	70000	785 (包括类别)	-
cifar 10	60000	1025 (包括类别)	数据从RGB转换为灰度，归一化并四舍五入至2位小数以减小存储大小
africa soil data train	1157	3600	来源：https://www.kaggle.com/c/afsis-soil-properties/data
sift_10k	10000	128	来源：https://github.com/searchivarius/nmslib/blob/master/sample_data/sift_10k.txt
BSR_bsds500	500 图像	-	来源：https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html
fastText data	-	-	.zip文件包含fastText R包的文件/文件夹
wili-2018	-	-	WiLI-2018数据集，包含235000段落，235种语言，提供平衡的训练-测试分割。下载链接：https://zenodo.org/record/841984#.YHwCvOpRUV0
Declaration of Human rights	-	-	.zip文件包含中文、英文、西班牙文的人权宣言
lid.176	-	-	.zip文件包含预训练的语言识别模型
grid30.zip	-	-	.zip文件包含30米高程.shp文件，用于重现CopernicusDEM R包的.RDS文件
grid90.zip	-	-	.zip文件包含90米高程.shp文件，用于重现CopernicusDEM R包的.RDS文件

数据下载方式

对于Linux操作系统，使用wget命令下载.zip文件。
其他情况下，使用仓库页面上的“Clone or download”按钮下载数据集。

其他格式数据

加州地理数据(.geojson格式)可通过以下链接以原始格式显示/下载： https://raw.githubusercontent.com/mlampros/DataSets/master/california.geojson

搜集汇总

数据集介绍

构建方式

该数据集通过多种来源和方法构建，涵盖了从图像识别到语言识别等多个领域。例如，MNIST数据集包含了70000个手写数字图像，每张图像具有785个特征，包括类别标签。CIFAR-10数据集则包含了60000张图像，每张图像经过RGB到灰度转换、归一化处理并四舍五入至两位小数，以减少存储空间。非洲土壤数据集则从Kaggle平台获取，包含1157个样本和3600个特征。SIFT_10K数据集包含10000个样本，每个样本有128个特征，用于图像特征提取。BSDS500数据集包含500张图像，用于图像分割任务。WiLI-2018数据集包含235000个段落，涵盖235种语言，用于语言识别。其他数据集如fastText数据、人权宣言文本、以及GRID30和GRID90数据集，分别用于语言模型训练和地理信息系统数据处理。

特点

该数据集的显著特点在于其多样性和广泛的应用领域。MNIST和CIFAR-10数据集因其经典性和广泛的应用场景，成为图像识别领域的基准数据集。非洲土壤数据集和SIFT_10K数据集分别在土壤科学和计算机视觉领域具有独特的应用价值。BSDS500数据集在图像分割和计算机视觉研究中占有重要地位。WiLI-2018数据集因其多语言特性和平衡的数据分布，成为语言识别研究的重要资源。fastText数据集和相关预训练模型则为自然语言处理提供了强大的工具。GRID30和GRID90数据集则为地理信息系统提供了高精度的地形数据。

使用方法

用户可以通过在Linux操作系统中使用R语言的system函数直接下载.zip格式的数据集，例如使用'system("wget https://raw.githubusercontent.com/mlampros/DataSets/master/mnist.zip")'命令下载MNIST数据集。对于其他操作系统，用户可以通过GitHub仓库页面上的“Clone or download”按钮下载数据集。此外，部分数据集如California.geojson，用户可以通过访问其原始格式链接直接显示或下载。数据集的使用通常涉及解压缩文件，并根据具体任务加载和处理数据。例如，MNIST数据集可用于训练手写数字识别模型，而WiLI-2018数据集则可用于训练语言识别模型。

背景与挑战

背景概述

MNIST数据集，作为手写数字识别领域的经典基准数据集，由Yann LeCun等人于1998年创建，旨在推动图像分类技术的发展。该数据集包含70,000张28x28像素的灰度图像，每张图像对应一个0到9的手写数字标签。MNIST的广泛应用不仅在学术界引发了深度学习的热潮，还在工业界为手写识别系统提供了坚实的基础。其简洁的结构和高质量的数据使其成为机器学习入门者的首选数据集，对计算机视觉领域的研究产生了深远影响。

当前挑战

尽管MNIST数据集在手写数字识别领域取得了显著成功，但其面临的挑战也不容忽视。首先，MNIST的图像分辨率较低，且数字样式相对简单，导致模型在处理复杂手写体时表现不佳。其次，由于数据集的广泛使用，许多现代深度学习模型在MNIST上的表现已接近饱和，难以进一步优化。此外，MNIST的单一任务特性限制了其在多任务学习中的应用，无法有效评估模型在复杂场景下的泛化能力。

常用场景

经典使用场景

MNIST数据集在机器学习领域中被广泛用于手写数字识别任务，其经典使用场景包括图像分类、模式识别以及深度学习模型的基准测试。CIFAR-10数据集则常用于图像分类和计算机视觉研究，特别是在卷积神经网络（CNN）的训练和评估中。Africa Soil Train Data数据集在农业科学中用于土壤属性预测，帮助研究人员优化土壤管理策略。SIFT_10K数据集在计算机视觉中用于特征点检测和匹配，广泛应用于图像检索和对象识别。BSR_bsds500数据集在图像分割和边缘检测研究中具有重要地位，为图像处理算法提供了标准测试集。

衍生相关工作

基于MNIST数据集的研究衍生出了许多关于深度学习和卷积神经网络的创新工作，如LeNet-5等经典模型。CIFAR-10数据集启发了大量关于图像分类和深度学习的研究，包括ResNet和DenseNet等先进网络结构。Africa Soil Train Data数据集促进了土壤科学和农业信息化的研究，推动了精准农业技术的发展。SIFT_10K数据集的相关工作扩展到了大规模图像数据库的检索和匹配技术。BSR_bsds500数据集的研究成果在图像分割和边缘检测算法上取得了显著进展，影响了多个图像处理领域的研究方向。

数据集最近研究