five

Oracle-MNIST|甲骨文识别数据集|机器学习数据集

收藏
arXiv2024-01-22 更新2024-06-21 收录
甲骨文识别
机器学习
下载链接:
https://github.com/wm-bupt/oracle-mnist
下载链接
链接失效反馈
资源简介:
Oracle-MNIST是一个包含30,222个28×28灰度图像的数据集,图像为10个类别的古代甲骨文。该数据集由北京邮电大学人工智能学院创建,旨在为机器学习算法提供一个具有挑战性的基准,特别是在图像噪声和畸变方面。数据集中的图像来源于真实的甲骨文表面,因数千年的埋藏和老化,图像含有严重的噪声和独特的变形。Oracle-MNIST与原始MNIST数据集格式兼容,便于直接应用于现有的分类器和系统。该数据集的应用领域包括计算机视觉和机器学习,特别是用于评估算法对真实世界图像噪声和变形的处理能力。
提供机构:
北京邮电大学人工智能学院
创建时间:
2022-05-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
Oracle-MNIST数据集的构建过程是将甲骨文字符的扫描图像转换为28×28像素的灰度图像。首先,将原始图像转换为8位灰度像素,然后根据前景和背景的亮度关系对图像进行反转。接着,使用双三次插值算法将图像的最长边缩放到28像素,并将最短边扩展到28像素,使图像居中。最后,将甲骨文字符的含义作为类别标签,并由考古或古文字学专家进行手动标注。整个数据集分为训练集和测试集,确保两者互不重叠。
特点
Oracle-MNIST数据集的特点在于它包含了30,222张甲骨文字符的28×28像素灰度图像,分为10个类别。这些图像由于经历了数千年的埋藏和老化,受到了严重的独特噪声影响,并且每个类别中的字符书写风格差异很大。这使得Oracle-MNIST比MNIST更具挑战性,能够更真实地反映现实世界中的图像变化。此外,Oracle-MNIST与原始MNIST数据集具有相同的数据格式,可以直接与现有的分类器和系统兼容。
使用方法
使用Oracle-MNIST数据集的方法与使用MNIST数据集的方法相似。用户可以从GitHub上免费获取数据集,并使用任何能够处理MNIST数据集的机器学习包进行训练和测试。由于Oracle-MNIST的数据格式与MNIST相同,因此只需将数据集的URL从MNIST数据集的位置更改为Oracle-MNIST数据集的位置即可使用。用户可以根据自己的需求选择不同的机器学习算法进行分类任务,并通过实验评估算法的性能。
背景与挑战
背景概述
Oracle-MNIST数据集,由北京邮电大学人工智能学院的Mei Wang和Weihong Deng于2024年1月22日提出,旨在为机器学习算法提供一个更具挑战性的基准。该数据集包含30,222张来自10个类别的古代字符的28x28灰度图像,用于模式分类,特别是针对图像噪声和失真的挑战。Oracle-MNIST的训练集由27,222张图像组成,每个类别的测试集包含300张图像。与原始MNIST数据集相同的数据格式,使其与现有分类器和系统直接兼容,但构成了比MNIST更具挑战性的分类任务。Oracle-MNIST的图像遭受了由3000年的埋葬和老化造成的极其严重和独特的噪声,以及古代中国书写风格的巨大差异,这些都使其对机器学习研究更具现实性。该数据集可在https://github.com/wm-bupt/oracle-mnist免费获取。
当前挑战
Oracle-MNIST数据集面临的挑战包括:1) 古代字符图像的噪声和失真:由于数千年的埋葬和老化,图像遭受了极其严重和独特的噪声,这对机器学习算法的鲁棒性提出了挑战。2) 写作风格的多样性:古代中国书写风格的巨大差异导致了高程度的类内差异和类间相似性,增加了识别的难度。3) 数据集的复杂性:Oracle-MNIST比MNIST和Fashion-MNIST更具挑战性,需要更先进的算法来处理这些复杂性。
常用场景
经典使用场景
Oracle-MNIST数据集主要用于评估机器学习算法在现实世界图像中的鲁棒性,特别是在面对图像噪声和失真时。数据集中的甲骨文字符图像,由于其历史久远,具有独特的噪声和书写风格,为分类任务带来了挑战。研究人员可以利用Oracle-MNIST数据集来测试和比较不同算法的性能,尤其是在图像识别和分类领域。此外,Oracle-MNIST与原始MNIST数据集的格式兼容,方便研究人员直接在现有系统中进行实验。
衍生相关工作
Oracle-MNIST数据集的发布引发了学术界对更真实、更具挑战性的图像数据集的研究兴趣。在此基础上,研究人员可能会开发更多类似的数据集,以涵盖更多样化的图像类型和场景。同时,Oracle-MNIST数据集也可能促进对新型图像处理算法的研究,特别是那些能够有效处理噪声和失真的算法。此外,Oracle-MNIST数据集的发布还可能推动机器学习算法在文化遗产保护和研究领域的应用,为相关领域的研究提供新的工具和方法。
数据集最近研究
最新研究方向
Oracle-MNIST数据集作为机器学习算法评估的基准,其独特之处在于它包含了来自甲骨文的真实图像,这些图像在经历了数千年的埋藏和老化后,遭受了极其严重且独特的噪声影响,同时还包含了古代中国人多样的书写风格。这使得Oracle-MNIST成为一个比MNIST更具挑战性的分类任务,因为Oracle-MNIST的数据更具现实性。Oracle-MNIST与原始MNIST数据集共享相同的数据格式,从而可以直接与所有现有的分类器和系统兼容。最新的研究集中在如何利用深度学习算法,特别是卷积神经网络(CNNs),来处理Oracle-MNIST中的噪声和变形问题。研究表明,尽管CNN在Oracle-MNIST上的表现优于传统的浅层机器学习算法,但仍有提升空间。Oracle-MNIST的出现为机器学习研究提供了一个新的挑战,有助于推动算法在处理真实世界图像方面的鲁棒性和准确性。
相关研究论文
  • 1
    Oracle-MNIST: a Dataset of Oracle Characters for Benchmarking Machine Learning Algorithms北京邮电大学人工智能学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录

Arizona Cities by Population

A dataset listing Arizona cities by population for 2024.

www.arizona-demographics.com 收录