five

mweiss/mnist_ambiguous

收藏
Hugging Face2023-03-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mweiss/mnist_ambiguous
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Mnist-Ambiguous,包含类似于MNIST的图像,但每个图像的标签具有不确定性,即每个图像有两个可能的真实类别。数据集旨在测试鲁棒性和不确定性感知的深度神经网络,使其能够检测并标记这些不确定性。数据集的特征包括图像(28x28的整数数组)和标签(整数),并额外提供了文本标签、类别概率和模糊标志等特征。数据集分为四个部分:test、train、test_mixed和train_mixed,分别包含不同比例的模糊图像和原始MNIST数据。数据集的目标是研究模型在处理模糊数据时的表现,特别是针对随机不确定性的研究。

This dataset, named Mnist-Ambiguous, comprises MNIST-like images, with each image carrying ambiguous labels—i.e., two possible ground-truth classes for every single image. The dataset is designed to evaluate the robustness and uncertainty-aware deep neural networks, enabling such models to detect and flag these inherent uncertainties. Its features include images (28×28 integer arrays), standard labels (integers), as well as supplementary attributes such as text labels, class probabilities, and ambiguity flags. The dataset is divided into four subsets: test, train, test_mixed, and train_mixed, each containing different proportions of ambiguous images and raw MNIST data. The core goal of this dataset is to study the performance of models when processing ambiguous data, with a particular focus on research regarding aleatoric uncertainty.
提供机构:
mweiss
原始信息汇总

数据集概述

名称: Mnist-Ambiguous

描述: 该数据集包含类似MNIST的图像,但具有不明确的真值。每张图像有两个可能的正确类别。适用于检测和标记这些问题的鲁棒和不确定性感知深度神经网络(DNN)。

数据集特征

  • 图像: 28x28的整数数组
  • 标签: 整数
  • 额外特征:
    • text_label (字符串): 概率标签的文本表示,例如p(0)=0.54, p(5)=0.46
    • p_label (浮点数列表): 每个类别的真值概率(对于模糊图像有两个非零值)
    • is_ambiguous (布尔值): 指示是否为模糊图像的标志

数据集分割

  • 训练集: 10,000张模糊图像
  • 测试集: 10,000张模糊图像
  • 混合测试集: 20,000张图像,由模糊测试集和LeCun等人的标准MNIST测试集混合而成
  • 混合训练集: 70,000张图像,由模糊训练集和标准训练集混合而成

数据集用途

推荐用于研究针对明确偶然不确定性的模型训练,使用train_mixed分割。test分割将导致认知和偶然不确定性。

许可证

该数据集遵循CC-BY-SA 3.0许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,手写数字识别作为经典任务,常面临真实场景中图像模糊性带来的挑战。Mnist-Ambiguous数据集基于原始MNIST数据集,通过算法生成具有双重真实标签的模糊图像,构建过程涉及对原始图像进行精心设计的扰动,使得每张图像同时对应两个可能的数字类别,并赋予相应的概率分布。该数据集包含四个子集,其中测试集专注于高度模糊的图像,训练集则引入不同程度的模糊性,以模拟实际应用中的不确定性。
使用方法
在深度学习模型评估中,Mnist-Ambiguous数据集主要用于测试模型对模糊输入的识别与处理能力。研究者可首先使用train_mixed子集进行模型训练,以融入模糊样本;随后通过test子集评估模型在高度模糊情况下的表现,或利用test_mixed子集进行混合环境下的综合测试。数据集支持图像分类任务,特别适用于研究模型的认知不确定性和随机不确定性,为开发更稳健的神经网络提供实证基础。
背景与挑战
背景概述
在深度学习模型评估领域,传统数据集往往依赖于单一、明确的标注,这限制了模型对现实世界中普遍存在的模糊性场景的适应能力。为应对这一局限,研究人员Michael Weiss、André García Gómez与Paolo Tonella于2022年共同创建了Mnist-Ambiguous数据集。该数据集基于经典MNIST手写数字识别任务,通过生成具有双重可能性的模糊图像,旨在推动模型在不确定性感知与鲁棒性方面的研究。其核心研究问题聚焦于如何使深度神经网络有效识别并处理标注中的固有模糊性,从而提升模型在复杂真实环境下的可靠性,对计算机视觉与机器学习领域的模型评估范式产生了重要影响。
当前挑战
该数据集主要挑战在于解决图像分类任务中固有的模糊性问题,即当输入图像同时符合多个类别特征时,传统模型难以准确捕捉并量化这种不确定性。构建过程中的挑战包括:如何生成既保持MNIST风格又具有合理模糊性的图像,确保模糊程度在训练与测试集间具有可控的梯度分布;以及如何设计混合分割策略,以区分认知不确定性与偶然不确定性,避免评估偏差,同时维持与原始数据分布的内在一致性。
常用场景
经典使用场景
在计算机视觉与机器学习领域,Mnist-Ambiguous数据集为研究模型在不确定性环境下的行为提供了关键基准。该数据集通过引入具有双重真实标签的模糊手写数字图像,模拟了现实世界中常见的标注歧义场景。研究者通常利用其训练集与测试集,评估深度神经网络在面临内在数据不确定性时的鲁棒性,特别是模型如何识别并标记那些无法明确分类的样本,从而推动不确定性感知学习框架的发展。
解决学术问题
该数据集核心解决了深度神经网络监督测试中一个常被忽视的学术问题:模型对真实歧义性数据的处理能力。传统评估往往假设数据具有清晰标注,忽略了现实应用中固有的模糊性。Mnist-Ambiguous通过提供具有概率性真实标签的图像,使研究者能够定量分析模型的认知不确定性与偶然不确定性,促进了不确定性量化、鲁棒分类以及异常检测等方向的方法创新,弥补了标准基准测试的不足。
实际应用
在实际应用层面,Mnist-Ambiguous数据集的价值体现在需要处理模糊信息的智能系统中。例如,在自动化手写识别、医疗图像分析或自动驾驶的感知模块中,输入数据常存在多种合理解释。该数据集训练出的模型能够更可靠地识别自身决策的置信度,在关键安全领域(如金融文档处理或诊断辅助)中,系统可主动标记歧义案例以供人工复核,从而提升整体应用的可靠性与安全性。
数据集最近研究
最新研究方向
在计算机视觉与深度学习领域,数据集的模糊性正成为模型鲁棒性评估的关键挑战。Mnist-Ambiguous数据集通过引入具有双重真实标签的手写数字图像,为研究认知不确定性与偶然不确定性提供了实验平台。当前前沿研究聚焦于开发能够有效检测并标记模糊样本的深度神经网络,以提升模型在真实世界复杂场景下的可靠性。该数据集推动了不确定性量化、对抗性样本防御及模型可解释性等热点方向的发展,其混合分割策略为区分训练与测试环境中的不确定性类型提供了方法论支持,对自动驾驶、医疗诊断等安全关键领域的算法验证具有重要科学意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作