Ranked MNISTs
收藏arXiv2025-08-30 更新2025-11-25 收录
下载链接:
https://zenodo.org/records/6585131
下载链接
链接失效反馈官方服务:
资源简介:
Ranked MNISTs数据集是由Technical University of Munich等研究机构创建的,包含8个合成数据集,用于多标签排序(MLR)研究。这些数据集在生成时考虑了不同的显著性决定因素,提供了一个丰富且可控的实验环境。Ranked MNISTs数据集旨在解决多标签排序中数据稀缺和标注偏差的问题,通过引入正标签之间的排序,揭示了标签的隐含重要性和相关度。这些数据集对于研究MLR领域的新方法提供了宝贵的资源,并有助于理解和解决MLR中的挑战。
The Ranked MNISTs dataset was developed by research institutions including the Technical University of Munich, and comprises 8 synthetic datasets tailored for multi-label ranking (MLR) research. These datasets are constructed with diverse salience determinants taken into account, creating a rich and controllable experimental environment. The Ranked MNISTs dataset is designed to tackle the problems of data scarcity and annotation bias in multi-label ranking, and unveils the implicit importance and relevance of labels by introducing ranking among positive labels. These datasets serve as a valuable resource for researching novel methods in the MLR field, and facilitate the understanding and resolution of challenges in MLR.
提供机构:
Technical University of Munich, Istanbul Technical University, University of Vermont, New York University
创建时间:
2025-08-30
搜集汇总
数据集介绍

构建方式
在解决多标签排序任务中数据稀缺和标注偏差问题的背景下,Ranked MNISTs数据集通过精心设计的合成方法构建而成。该数据集基于经典MNIST手写数字图像,将1至10个数字以可控方式嵌入224x224像素的画布中,通过系统调整数字的尺寸和亮度等视觉属性来生成明确的排序依据。生成过程中采用均匀分布采样重要性因子,确保每个图像中数字的排序与预设的视觉特征严格对应,从而为多标签排序研究提供了高度可控且可复现的实验环境。
特点
Ranked MNISTs数据集展现出独特的结构特性,其核心在于通过视觉属性直接映射到标签的排序关系,构建了半合成的多标签排序基准。该数据集包含灰度与彩色两个分支,每个分支下进一步细分为尺寸、亮度及其混合等多种配置模式,形成了八种不同的数据集变体。这种设计不仅提供了丰富的排序场景,还允许研究者精确控制重要性因子的变化范围,有效避免了真实数据中常见的主观标注偏差,为模型学习隐式类别显著性提供了清晰且可解释的基础。
使用方法
在多标签排序模型的评估与比较研究中,Ranked MNISTs数据集可作为基准工具用于训练和测试阶段。研究者首先利用该数据集的图像及其对应的排序标签训练模型,通过优化损失函数学习数字的隐式显著性分布。在推理阶段,模型输出的排序得分可直接用于评估排名一致性指标,如Kendall's Tau-b和Spearman's Rho。该数据集的可控特性使其特别适合分析模型对视觉属性变化的敏感性,以及验证排序算法在渐进式重要性调整场景中的稳定性表现。
背景与挑战
背景概述
Ranked MNISTs数据集由慕尼黑工业大学等机构的研究团队于2025年提出,旨在解决多标签排序领域的关键问题。该数据集基于经典MNIST手写数字库构建,通过引入尺度、亮度等视觉属性作为重要性因子,为每个实例中的正类标签赋予显式排序信息。其核心创新在于突破了传统多标签分类中正类标签等权处理的局限,首次将正类间排序关系建模为概率分布,为多标签排序研究提供了可控且可解释的实验环境。这一工作显著推动了计算机视觉与机器学习领域对标签显著性建模的理论发展,并为推荐系统、生物信息学等应用场景提供了新的技术基础。
当前挑战
多标签排序领域长期面临两大挑战:在问题层面,传统方法仅利用标签的二值划分信息,无法捕捉正类标签间的隐性排序关系,导致模型难以学习决定标签排名的显著性值;在数据构建层面,真实场景中的多标签排序数据集存在稀缺性高、标注主观性强的问题,例如自然场景图像标签排序易受标注者主观判断影响。Ranked MNISTs通过合成数据生成策略应对这些挑战,但在模拟复杂现实世界的标签交互关系时,仍需解决重要性因子与视觉特征耦合、噪声注入控制等关键技术难题。
常用场景
经典使用场景
在视觉场景理解领域,Ranked MNISTs数据集通过引入数字尺寸与亮度等视觉属性作为排序依据,构建了具有明确层级关系的多标签排序基准。该数据集典型应用于评估模型对标签间相对重要性的学习能力,研究者通过分析模型在合成图像上的排序表现,验证其能否准确捕捉视觉特征与标签显著性之间的关联规律。
实际应用
在工业实践中,Ranked MNISTs可作为推荐系统与内容排序的测试平台,模拟商品多属性权重分配场景。其生成的层级化标签结构能够辅助自动驾驶系统理解交通标志的优先级,或帮助医疗影像分析工具区分病灶特征的严重程度,为需要细粒度重要性评估的决策系统提供训练基础。
衍生相关工作
该数据集催生了多标签排序领域的系列创新研究,例如基于成对比较的强基线方法CRPC-Strong与LSEP-Strong,以及概率分布建模框架UniMLR。这些工作通过引入正类标签间的排序约束,推动了标签分布学习与多任务排序的融合,为后续研究提供了可扩展的理论框架和评估标准。
以上内容由遇见数据集搜集并总结生成



