Oracle-MNIST

Name: Oracle-MNIST
Creator: 北京邮电大学人工智能学院
Published: 2024-01-22 10:39:12
License: 暂无描述

arXiv2024-01-22 更新2024-06-21 收录

下载链接：

https://github.com/wm-bupt/oracle-mnist

下载链接

链接失效反馈

官方服务：

资源简介：

Oracle-MNIST是一个包含30,222个28×28灰度图像的数据集，图像为10个类别的古代甲骨文。该数据集由北京邮电大学人工智能学院创建，旨在为机器学习算法提供一个具有挑战性的基准，特别是在图像噪声和畸变方面。数据集中的图像来源于真实的甲骨文表面，因数千年的埋藏和老化，图像含有严重的噪声和独特的变形。Oracle-MNIST与原始MNIST数据集格式兼容，便于直接应用于现有的分类器和系统。该数据集的应用领域包括计算机视觉和机器学习，特别是用于评估算法对真实世界图像噪声和变形的处理能力。

Oracle-MNIST is a dataset comprising 30,222 28×28 grayscale images of 10 categories of ancient oracle bone inscriptions. This dataset was developed by the School of Artificial Intelligence, Beijing University of Posts and Telecommunications, aiming to provide a challenging benchmark for machine learning algorithms, particularly regarding image noise and distortion. The images in this dataset are sourced from real oracle bone surfaces; due to thousands of years of burial and aging, the images exhibit severe noise and unique distortions. Oracle-MNIST is format-compatible with the original MNIST dataset, enabling direct application to existing classifiers and systems. Application scenarios of this dataset cover computer vision and machine learning, especially for evaluating the performance of algorithms in handling real-world image noise and distortions.

提供机构：

北京邮电大学人工智能学院

创建时间：

2022-05-19

搜集汇总

数据集介绍

构建方式

Oracle-MNIST数据集的构建过程是将甲骨文字符的扫描图像转换为28×28像素的灰度图像。首先，将原始图像转换为8位灰度像素，然后根据前景和背景的亮度关系对图像进行反转。接着，使用双三次插值算法将图像的最长边缩放到28像素，并将最短边扩展到28像素，使图像居中。最后，将甲骨文字符的含义作为类别标签，并由考古或古文字学专家进行手动标注。整个数据集分为训练集和测试集，确保两者互不重叠。

特点

Oracle-MNIST数据集的特点在于它包含了30,222张甲骨文字符的28×28像素灰度图像，分为10个类别。这些图像由于经历了数千年的埋藏和老化，受到了严重的独特噪声影响，并且每个类别中的字符书写风格差异很大。这使得Oracle-MNIST比MNIST更具挑战性，能够更真实地反映现实世界中的图像变化。此外，Oracle-MNIST与原始MNIST数据集具有相同的数据格式，可以直接与现有的分类器和系统兼容。

使用方法

使用Oracle-MNIST数据集的方法与使用MNIST数据集的方法相似。用户可以从GitHub上免费获取数据集，并使用任何能够处理MNIST数据集的机器学习包进行训练和测试。由于Oracle-MNIST的数据格式与MNIST相同，因此只需将数据集的URL从MNIST数据集的位置更改为Oracle-MNIST数据集的位置即可使用。用户可以根据自己的需求选择不同的机器学习算法进行分类任务，并通过实验评估算法的性能。

背景与挑战

背景概述

Oracle-MNIST数据集，由北京邮电大学人工智能学院的Mei Wang和Weihong Deng于2024年1月22日提出，旨在为机器学习算法提供一个更具挑战性的基准。该数据集包含30,222张来自10个类别的古代字符的28x28灰度图像，用于模式分类，特别是针对图像噪声和失真的挑战。Oracle-MNIST的训练集由27,222张图像组成，每个类别的测试集包含300张图像。与原始MNIST数据集相同的数据格式，使其与现有分类器和系统直接兼容，但构成了比MNIST更具挑战性的分类任务。Oracle-MNIST的图像遭受了由3000年的埋葬和老化造成的极其严重和独特的噪声，以及古代中国书写风格的巨大差异，这些都使其对机器学习研究更具现实性。该数据集可在https://github.com/wm-bupt/oracle-mnist免费获取。

当前挑战

Oracle-MNIST数据集面临的挑战包括：1) 古代字符图像的噪声和失真：由于数千年的埋葬和老化，图像遭受了极其严重和独特的噪声，这对机器学习算法的鲁棒性提出了挑战。2) 写作风格的多样性：古代中国书写风格的巨大差异导致了高程度的类内差异和类间相似性，增加了识别的难度。3) 数据集的复杂性：Oracle-MNIST比MNIST和Fashion-MNIST更具挑战性，需要更先进的算法来处理这些复杂性。

常用场景

经典使用场景

Oracle-MNIST数据集主要用于评估机器学习算法在现实世界图像中的鲁棒性，特别是在面对图像噪声和失真时。数据集中的甲骨文字符图像，由于其历史久远，具有独特的噪声和书写风格，为分类任务带来了挑战。研究人员可以利用Oracle-MNIST数据集来测试和比较不同算法的性能，尤其是在图像识别和分类领域。此外，Oracle-MNIST与原始MNIST数据集的格式兼容，方便研究人员直接在现有系统中进行实验。

衍生相关工作

Oracle-MNIST数据集的发布引发了学术界对更真实、更具挑战性的图像数据集的研究兴趣。在此基础上，研究人员可能会开发更多类似的数据集，以涵盖更多样化的图像类型和场景。同时，Oracle-MNIST数据集也可能促进对新型图像处理算法的研究，特别是那些能够有效处理噪声和失真的算法。此外，Oracle-MNIST数据集的发布还可能推动机器学习算法在文化遗产保护和研究领域的应用，为相关领域的研究提供新的工具和方法。

数据集最近研究