MNIST

github2024-11-27 更新2024-11-28 收录

下载链接：

https://github.com/Quandela/HybridAIQuantum-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

MNIST数据集包含70,000张手写数字图像，每张图像为28x28像素。在本挑战中，使用了一个6,000张图像的子集，并使用量子核来预测数字。

The MNIST dataset comprises 70,000 handwritten digit images, each with a dimension of 28×28 pixels. In this challenge, a subset consisting of 6,000 images was adopted, and quantum kernels were utilized for digit prediction.

创建时间：

2024-11-07

原始信息汇总

数据集概述

数据集名称

MNIST 数据集

数据集描述

包含 70,000 张手写数字图像，每张图像为 28x28 像素。
本次挑战使用的是一个 6,000 张图像的子集。

数据集用途

用于量子计算与机器学习的交叉研究，特别是通过量子模型预测手写数字。

数据集结构

数据集位于 data 文件夹中，包含 train.csv 和 test.csv 文件。

挑战规则

可以使用任何经典机器学习模型，并通过量子模型展示性能提升。
提交的解决方案需为可复现的 Jupyter 笔记本。
可以根据需要修改提供的量子模型，可以使用量子核或其他方法。

评估标准

基于经典模型的准确性改进。
收敛速度。
在同等准确性下的模型大小优化。
额外加分项包括：
- 与现有最先进的经典方法进行全面基准测试。
- 成功验证 QPU。
- 创新方法。

时间线

团队注册截止日期：2024年12月6日
第一阶段提交截止日期：2025年1月13日
第二阶段参与者公布日期：2025年1月17日
第二阶段提交截止日期：2025年3月21日

搜集汇总

数据集介绍

构建方式

MNIST数据集由Yann LeCun等人于1994年引入，包含70,000张28x28像素的手写数字图像。本次挑战中，数据集被缩减至6,000张图像，以适应量子计算处理的需求。数据集的构建基于原始MNIST数据集，通过选择性采样生成子集，确保数据多样性和代表性。

特点

MNIST数据集以其经典性和广泛应用性著称，是机器学习领域的基石。本次挑战中，数据集的缩减版本不仅保留了原始数据的关键特征，还引入了量子计算的独特视角。这种设计使得数据集既适用于传统机器学习方法，也适合探索量子机器学习的新技术。

使用方法

使用MNIST数据集时，用户可从`data`文件夹中获取`train.csv`和`test.csv`文件。提供的`MNIST_classification_quantum.ipynb`和`training.py`脚本展示了模型训练过程。用户可通过修改`model.py`、`boson_sampler.py`和`utils.py`中的代码，构建和集成量子嵌入，实现量子模型的训练与评估。

背景与挑战

背景概述

MNIST数据集，全称为Modified National Institute of Standards and Technology数据集，由Yann LeCun等人在1994年引入，至今已成为机器学习领域中一个标志性的基准。该数据集包含了70,000张28x28像素的手写数字图像，长期以来在计算机视觉领域中被广泛用于测试和验证各种方法，从传统的机器学习到深度神经网络。尽管现代经典方法在MNIST上的准确率已接近完美，但本次挑战旨在通过量子机器学习的视角重新审视这一经典基准，探索量子技术的新方法和策略。

当前挑战

本次挑战的核心在于使用量子模型解决MNIST问题，特别是在一个缩减的6,000张图像子集上。这一挑战不仅涉及量子计算与机器学习的交叉领域，还要求参与者在量子处理能力有限的条件下，探索如何有效利用量子核进行预测。构建过程中，参与者需面对量子计算资源有限、量子模型与经典模型性能对比等具体挑战。此外，如何在量子环境中实现与经典方法相媲美的准确率和收敛速度，也是本次挑战的重要课题。

常用场景

经典使用场景

在机器学习领域，MNIST数据集的经典使用场景主要集中在手写数字识别任务上。该数据集由70,000张28x28像素的手写数字图像组成，广泛用于测试和验证各种计算机视觉方法，从传统的机器学习算法到深度神经网络。通过使用MNIST数据集，研究人员能够评估和比较不同模型的性能，从而推动计算机视觉技术的发展。

解决学术问题

MNIST数据集在学术研究中解决了多个关键问题，特别是在计算机视觉和模式识别领域。它为研究人员提供了一个标准化的基准，用于测试和验证新的算法和模型。通过在MNIST数据集上的表现，研究者可以评估算法的泛化能力和鲁棒性，从而推动机器学习理论和实践的进步。此外，MNIST数据集还促进了量子计算与机器学习的交叉研究，探索了量子技术在经典问题上的应用潜力。

衍生相关工作

基于MNIST数据集，衍生了许多相关的经典工作。例如，LeNet-5网络是最早使用MNIST数据集进行训练和测试的卷积神经网络之一，极大地推动了深度学习的发展。此外，许多研究通过改进和扩展MNIST数据集，探索了更复杂的图像识别任务，如手写汉字识别和手写数学符号识别。这些工作不仅丰富了计算机视觉领域的研究内容，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成