five

dopanim

收藏
arXiv2024-07-31 更新2024-08-02 收录
下载链接:
https://doi.org/10.5281/zenodo.11479590
下载链接
链接失效反馈
官方服务:
资源简介:
dopanim数据集由卡塞尔大学创建,包含约15,750张动物图像,涵盖15个类别,特别关注分类难度较高的动物类别。数据集通过iNaturalist平台收集,确保了图像的高质量和多样性。数据集的创建过程中,20名标注者提供了超过52,000个标注,准确率约为67%。该数据集主要用于研究多标注者学习、噪声标签学习和主动学习等领域,旨在提高机器学习模型对噪声标注的鲁棒性。
提供机构:
卡塞尔大学
创建时间:
2024-07-31
搜集汇总
数据集介绍
main_image_url
构建方式
dopanim数据集由来自iNaturalist平台的大约15,750张动物图像组成,涵盖15个类别。为了获取人类注释者对动物图像的标注,研究人员招募了大约20位人类注释者,对约10,500张图像进行了标注,共产生了超过52,000个标注,标注准确率约为67%。该数据集的构建过程包括数据收集、注释者培训和标注过程。首先,从iNaturalist平台下载动物图像和相应的真实标签。然后,对注释者进行培训,使其能够使用LabelStudio平台进行标注。注释者被要求对每张图像的每个类别分配未归一化的标签可能性。最后,注释者填写了关于野生动物的兴趣和知识、标注过程中遇到的困难等问题的问卷。
特点
dopanim数据集具有以下特点:1)具有挑战性的任务:区分具有相似外观的动物(双胞胎动物)。2)人类估计的可能性作为标注:注释者被要求对每个类别分配可能性,以反映他们对图像属于特定类别的信心程度。3)注释者元数据:除了标注数据外,数据集还包括注释者的元数据,例如他们对野生动物的兴趣和知识、标注过程中的困难和标注时间等信息。4)多注释者学习:数据集包含来自多个注释者的标注,可用于研究多注释者学习算法。5)软标签:数据集提供了软标签,即注释者对每个类别分配的可能性,以反映他们的不确定性。6)注释者性能模型:数据集可以用于研究和评估注释者性能模型,以改进多注释者学习算法。
使用方法
使用dopanim数据集的方法包括:1)多注释者学习算法评估:可以使用数据集中的多个注释者的标注来评估多注释者学习算法的性能。2)软标签学习:可以使用数据集中的软标签来研究软标签学习算法,以提高模型的鲁棒性和准确性。3)注释者性能评估:可以使用数据集中的注释者元数据和标注数据来评估注释者的性能,以改进多注释者学习算法。4)主动学习:可以使用数据集中的标注时间和标注者元数据来研究主动学习方法,以选择最有用的样本进行标注,从而降低标注成本并提高模型的泛化性能。5)学习超越硬标签:可以使用数据集中的软标签来研究学习超越硬标签的方法,以提高模型的鲁棒性和准确性。
背景与挑战
背景概述
dopanim数据集是一个包含约15,750张动物图片的数据库,涵盖15个类别,旨在解决机器学习中标注数据存在噪声的问题。该数据集由德国卡塞尔大学智能嵌入式系统研究组的Marek Herde、Denis Huseljic、Lukas Rauch和Bernhard Sick等研究人员创建。其核心研究问题在于如何处理和利用人类标注者提供的带有噪声的标注数据,以提升机器学习模型的泛化性能。dopanim数据集的引入为相关领域的研究提供了重要的实证评估工具,并推动了多标注者学习、主动学习和无硬标签学习等研究领域的进展。
当前挑战
dopanim数据集面临的挑战主要包括:(1) 动物分类任务的挑战:数据集中的动物种类外观相似,对标注者的专业知识和注意力要求较高,容易产生标注噪声。(2) 构建过程中的挑战:为了模拟人类标注者的噪声,研究人员招募了20名标注者对约10,500张图片进行了超过52,000次标注,并提供了标注者的元数据和标注时间等信息,这增加了数据收集的成本和复杂性。
常用场景
经典使用场景
dopanim数据集主要应用于多标注者学习,特别是评估和改进在噪声标注环境下机器学习模型的鲁棒性。该数据集包含约15,750张动物图片,分为15个类别,并收集了来自20位人类的约52,000个标注,其中标注准确率约为67%。这些标注包含了人类估计的图像-标注者对的可能性,以及标注者元数据。dopanim数据集的挑战性任务是对高度相似的动物进行分类,这使得它在评估多标注者学习方法的鲁棒性方面具有独特价值。
衍生相关工作
dopanim数据集的发布激发了更多相关领域的研究工作。例如,研究人员可以利用dopanim数据集来开发新的噪声标注学习方法,或者通过分析标注者元数据来改进多标注者学习方法的训练过程。此外,dopanim数据集还可以用于评估主动学习策略的效率和效果,从而推动机器学习领域的发展。
数据集最近研究
最新研究方向
dopanim数据集的最新研究方向主要聚焦于多标注者学习(Multi-annotator Learning),旨在应对人类标注数据中的噪声问题。该数据集的特色在于包含来自多个人类的标注,以及标注者的元数据,为研究多标注者学习提供了宝贵的资源。研究热点集中在如何利用这些标注数据来提高机器学习模型的泛化性能,包括通过分析标注者的不同表现来校正噪声标注,以及利用标注者的元数据来改进模型训练。此外,dopanim数据集还探索了学习超越硬标签(Learning Beyond Hard Labels)和主动学习(Active Learning)等领域,展示了其在多标注者学习研究中的广泛适用性和潜在价值。
相关研究论文
  • 1
    dopanim: A Dataset of Doppelganger Animals with Noisy Annotations from Multiple Humans卡塞尔大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作