dopanim

Name: dopanim
Creator: 卡塞尔大学
Published: 2024-07-31T00:27:51+08:00

arXiv2024-07-31 更新2024-08-02 收录

动物图像分类

噪声标签学习

数据链接：

https://doi.org/10.5281/zenodo.11479590 数据链接链接失效反馈

官方服务：

资源简介：

dopanim数据集由卡塞尔大学创建，包含约15,750张动物图像，涵盖15个类别，特别关注分类难度较高的动物类别。数据集通过iNaturalist平台收集，确保了图像的高质量和多样性。数据集的创建过程中，20名标注者提供了超过52,000个标注，准确率约为67%。该数据集主要用于研究多标注者学习、噪声标签学习和主动学习等领域，旨在提高机器学习模型对噪声标注的鲁棒性。

The Dopanim dataset was created by Kassel University. It consists of approximately 15,750 animal images spanning 15 categories, with a particular focus on animal classes that are relatively difficult to classify. The dataset was collected via the iNaturalist platform, ensuring high image quality and diversity. During its development, 20 annotators provided over 52,000 annotations, with an overall annotation accuracy of approximately 67%. This dataset is primarily used for research in multi-annotator learning, noisy label learning, active learning and other related fields, aiming to improve the robustness of machine learning models against noisy annotations.

提供机构：

卡塞尔大学

创建时间：

2024-07-31

搜集汇总

数据集介绍

构建方式

dopanim数据集由来自iNaturalist平台的大约15,750张动物图像组成，涵盖15个类别。为了获取人类注释者对动物图像的标注，研究人员招募了大约20位人类注释者，对约10,500张图像进行了标注，共产生了超过52,000个标注，标注准确率约为67%。该数据集的构建过程包括数据收集、注释者培训和标注过程。首先，从iNaturalist平台下载动物图像和相应的真实标签。然后，对注释者进行培训，使其能够使用LabelStudio平台进行标注。注释者被要求对每张图像的每个类别分配未归一化的标签可能性。最后，注释者填写了关于野生动物的兴趣和知识、标注过程中遇到的困难等问题的问卷。

特点

dopanim数据集具有以下特点：1）具有挑战性的任务：区分具有相似外观的动物（双胞胎动物）。2）人类估计的可能性作为标注：注释者被要求对每个类别分配可能性，以反映他们对图像属于特定类别的信心程度。3）注释者元数据：除了标注数据外，数据集还包括注释者的元数据，例如他们对野生动物的兴趣和知识、标注过程中的困难和标注时间等信息。4）多注释者学习：数据集包含来自多个注释者的标注，可用于研究多注释者学习算法。5）软标签：数据集提供了软标签，即注释者对每个类别分配的可能性，以反映他们的不确定性。6）注释者性能模型：数据集可以用于研究和评估注释者性能模型，以改进多注释者学习算法。

使用方法

使用dopanim数据集的方法包括：1）多注释者学习算法评估：可以使用数据集中的多个注释者的标注来评估多注释者学习算法的性能。2）软标签学习：可以使用数据集中的软标签来研究软标签学习算法，以提高模型的鲁棒性和准确性。3）注释者性能评估：可以使用数据集中的注释者元数据和标注数据来评估注释者的性能，以改进多注释者学习算法。4）主动学习：可以使用数据集中的标注时间和标注者元数据来研究主动学习方法，以选择最有用的样本进行标注，从而降低标注成本并提高模型的泛化性能。5）学习超越硬标签：可以使用数据集中的软标签来研究学习超越硬标签的方法，以提高模型的鲁棒性和准确性。

背景与挑战

背景概述

dopanim数据集是一个包含约15,750张动物图片的数据库，涵盖15个类别，旨在解决机器学习中标注数据存在噪声的问题。该数据集由德国卡塞尔大学智能嵌入式系统研究组的Marek Herde、Denis Huseljic、Lukas Rauch和Bernhard Sick等研究人员创建。其核心研究问题在于如何处理和利用人类标注者提供的带有噪声的标注数据，以提升机器学习模型的泛化性能。dopanim数据集的引入为相关领域的研究提供了重要的实证评估工具，并推动了多标注者学习、主动学习和无硬标签学习等研究领域的进展。

当前挑战

dopanim数据集面临的挑战主要包括：(1) 动物分类任务的挑战：数据集中的动物种类外观相似，对标注者的专业知识和注意力要求较高，容易产生标注噪声。(2) 构建过程中的挑战：为了模拟人类标注者的噪声，研究人员招募了20名标注者对约10,500张图片进行了超过52,000次标注，并提供了标注者的元数据和标注时间等信息，这增加了数据收集的成本和复杂性。

常用场景

经典使用场景

dopanim数据集主要应用于多标注者学习，特别是评估和改进在噪声标注环境下机器学习模型的鲁棒性。该数据集包含约15,750张动物图片，分为15个类别，并收集了来自20位人类的约52,000个标注，其中标注准确率约为67%。这些标注包含了人类估计的图像-标注者对的可能性，以及标注者元数据。dopanim数据集的挑战性任务是对高度相似的动物进行分类，这使得它在评估多标注者学习方法的鲁棒性方面具有独特价值。

衍生相关工作

dopanim数据集的发布激发了更多相关领域的研究工作。例如，研究人员可以利用dopanim数据集来开发新的噪声标注学习方法，或者通过分析标注者元数据来改进多标注者学习方法的训练过程。此外，dopanim数据集还可以用于评估主动学习策略的效率和效果，从而推动机器学习领域的发展。

数据集最近研究

dopanim

资源简介：

相关数据集