five

Dirty-MNIST

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Dirty-MNIST
下载链接
链接失效反馈
官方服务:
资源简介:
DirtyMNIST 是 MNIST + AmbiguousMNIST 的串联,每个训练集中有 60k 个样本。 AmbiguousMNIST 包含具有不同歧义的附加歧义数字。 AmbiguousMNIST 测试集也包含 60k 个不明确的样本。附加指导 DirtyMNIST 是 MNIST + AmbiguousMNIST 的串联,每个训练集中有 60k 个样本。当前的 AmbiguousMNIST 包含 6k 个唯一样本,每个样本有 10 个标签。这个多标签数据集被展平为 60k 个样本。假设是模棱两可的样本具有多个“有效”标签,因为它们是模棱两可的。 MNIST 样本被故意欠采样(相比之下),这有利于可以选择明确样本的 AL 采集功能。从 DirtyMNIST 的 MNIST 一半中选择您的初始训练样本(用于热启动主动学习),以避免使用可能非常模棱两可的样本开始训练,这可能会给您的实验增加很多差异。出于与上述相同的原因,请确保也从 MNIST 中选择您的验证集。鉴于 Ambiguous-MNIST 中每个样本有 10 个多标签,请确保您的批量采集大小 >= 10(可能)。默认情况下,标准差为 0.05 的高斯噪声被添加到每个样本中,以防止采集函数(在主动学习中)通过忽略“重复”而作弊。如果要将 Ambiguous-MNIST 拆分为子集(或 Dirty-MNIST 在第二个不明确的一半内),请确保拆分为 10 的倍数,以避免在扁平的多标签样本中拆分。
提供机构:
OpenDataLab
创建时间:
2022-08-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作