Dirty-MNIST

Name: Dirty-MNIST
Creator: OpenDataLab
License: 暂无描述

OpenXLab2026-04-18 收录

下载链接：

https://openxlab.org.cn/datasets/OpenDataLab/Dirty-MNIST

下载链接

链接失效反馈

官方服务：

资源简介：

DirtyMNIST 是 MNIST + AmbiguousMNIST 的串联，每个训练集中有 60k 个样本。 AmbiguousMNIST 包含具有不同歧义的附加歧义数字。 AmbiguousMNIST 测试集也包含 60k 个不明确的样本。附加指导 DirtyMNIST 是 MNIST + AmbiguousMNIST 的串联，每个训练集中有 60k 个样本。当前的 AmbiguousMNIST 包含 6k 个唯一样本，每个样本有 10 个标签。这个多标签数据集被展平为 60k 个样本。假设是模棱两可的样本具有多个“有效”标签，因为它们是模棱两可的。 MNIST 样本被故意欠采样（相比之下），这有利于可以选择明确样本的 AL 采集功能。从 DirtyMNIST 的 MNIST 一半中选择您的初始训练样本（用于热启动主动学习），以避免使用可能非常模棱两可的样本开始训练，这可能会给您的实验增加很多差异。出于与上述相同的原因，请确保也从 MNIST 中选择您的验证集。鉴于 Ambiguous-MNIST 中每个样本有 10 个多标签，请确保您的批量采集大小 >= 10（可能）。默认情况下，标准差为 0.05 的高斯噪声被添加到每个样本中，以防止采集函数（在主动学习中）通过忽略“重复”而作弊。如果要将 Ambiguous-MNIST 拆分为子集（或 Dirty-MNIST 在第二个不明确的一半内），请确保拆分为 10 的倍数，以避免在扁平的多标签样本中拆分。

提供机构：

OpenDataLab

创建时间：

2022-08-19

5,000+

优质数据集

54 个

任务类型

进入经典数据集