Partial-Label CIFAR-10 (PLCIFAR10)
收藏arXiv2025-02-14 更新2025-02-18 收录
下载链接:
https://github.com/wwangwitsel/PLCIFAR10
下载链接
链接失效反馈官方服务:
资源简介:
PLCIFAR10是一个包含由人类标注的部分标签的图像数据集,创建于亚马逊MTurk众包平台。该数据集基于广泛使用的CIFAR-10数据集,旨在为部分标注学习提供更真实的测试场景,包含5000个由人工标注的图像部分标签,每个图像可能有多个候选标签集,其中包括真实标签。
PLCIFAR10 is an image dataset containing partially human-annotated labels, which was developed on the Amazon MTurk crowdsourcing platform. Based on the widely used CIFAR-10 dataset, this dataset aims to provide more realistic test scenarios for partial label learning, and includes 5000 such image samples, where each image may have multiple candidate label sets that include the ground-truth label.
提供机构:
东京大学, 日本;理化学研究所, 日本;东南大学, 中国;威廉与玛丽学院, 美国弗吉尼亚州
创建时间:
2025-02-14
搜集汇总
数据集介绍

构建方式
Partial-Label CIFAR-10 (PLCIFAR10) 数据集的构建采用了人类标注的方式,通过 Amazon Mechanical Turk 平台收集了 50,2190 个候选标签集,共计 712,109 个部分标签。数据收集过程中,每张 CIFAR-10 图像都被分配给 10 个不同的标注者进行标注,以确保数据的多样性和准确性。数据集分为两个版本:PLCIFAR10-Aggregate 和 PLCIFAR10-Vaguest,分别用于不同的实验场景。
特点
PLCIFAR10 数据集的特点在于它提供了真实世界的图像数据,并且每个样本都关联了多个候选标签。这使得数据集更适合评估部分标签学习算法在现实场景中的性能。此外,数据集的噪声率较高,更接近真实应用中的情况,使得数据集更具挑战性和实用性。
使用方法
PLCIFAR10 数据集可用于评估部分标签学习算法的性能。研究人员可以根据需要选择 PLCIFAR10-Aggregate 或 PLCIFAR10-Vaguest 版本进行实验。数据集的使用方法包括将数据集划分为训练集和验证集,使用部分标签训练集训练模型,并在验证集上评估模型的性能。此外,数据集还可以用于比较不同算法之间的性能差异,以帮助研究人员选择最适合特定任务的算法。
背景与挑战
背景概述
Partial-Label CIFAR-10 (PLCIFAR10) 是一个由人类标注的部分标签图像数据集,创建于2025年,由Wei Wang等研究人员在东京大学、RIKEN、东南大学和威廉与玛丽学院共同完成。该数据集的创建旨在提供一个更真实的测试环境,以评估部分标签学习(PLL)算法的性能。PLCIFAR10 的核心研究问题是如何在部分标签的弱监督学习问题中,从多个候选标签中识别出真正的标签,并利用深度学习算法提高模型性能。该数据集对相关领域的影响是提供了一个标准化的、公平的、实用的PLL算法评估平台,有助于促进PLL算法在未来的标准化、公平、实用评估。
当前挑战
PLCIFAR10 数据集相关的挑战主要包括:1) 模型选择问题,因为部分标签学习问题的定义不允许存在普通标签数据集,但在实际应用中如何处理验证数据的使用和模型选择标准仍需进一步研究;2) 实验设置不一致,不同论文中使用的实验设置差异较大,导致算法性能比较困难;3) 缺乏真实世界的图像数据集,现有的部分标签学习工作主要在现实世界的表格数据集或合成图像数据集上进行实验,但这些数据集可能无法与现代网络架构兼容,或者与真实应用中的复杂标注机制不一致。
常用场景
经典使用场景
Partial-Label CIFAR-10 (PLCIFAR10) 数据集主要用于评估深度部分标签学习算法的性能。该数据集包含了从Amazon Mechanical Turk收集的人类标注的部分标签图像,为研究者提供了一个更加接近真实场景的测试平台。
衍生相关工作
PLCIFAR10 数据集的创建为部分标签学习领域带来了新的研究方向。例如,研究者可以基于 PLCIFAR10 开发新的部分标签学习算法,或者使用 PLCIFAR10 评估现有算法的性能。此外,PLCIFAR10 的创建也为其他领域的研究提供了新的数据集,从而推动了相关领域的发展。
数据集最近研究
最新研究方向
Partial-label learning (PLL) has emerged as a significant research area in weakly supervised learning, where each training example is associated with multiple candidate labels, with only one being the true label. The Partial-Label CIFAR-10 (PLCIFAR10) dataset, introduced in a recent ICLR 2025 conference paper, addresses critical issues in PLL by providing a benchmark for evaluating deep PLL algorithms. The research highlights the need for standardized model selection criteria and emphasizes the importance of real-world image datasets for more realistic scenario evaluations. PLCIFAR10, collected from Amazon Mechanical Turk, offers human-annotated partial labels, making it an invaluable resource for researchers. The paper also proposes novel model selection criteria with theoretical guarantees, aiming to ensure fair and practical evaluations of PLL algorithms. This dataset and benchmark have the potential to significantly impact the PLL research landscape by promoting standardized, fair, and practical evaluations of PLL algorithms.
相关研究论文
- 1Realistic Evaluation of Deep Partial-Label Learning Algorithms东京大学, 日本;理化学研究所, 日本;东南大学, 中国;威廉与玛丽学院, 美国弗吉尼亚州 · 2025年
以上内容由遇见数据集搜集并总结生成



