five

Danish Fungi 2020 (DF20)

收藏
arXiv2021-08-20 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/danish-fungi-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Danish Fungi 2020 (DF20) 数据集是由丹麦真菌图集提交的观察数据构建的,包含295,938张图像,涵盖1,604种真菌,主要来自真菌界。该数据集以其准确的分类标签、低错误率、高度不平衡的长尾类分布、丰富的观察元数据和明确的类层次结构而独树一帜。DF20数据集与ImageNet无重叠,允许对从公开可用的ImageNet检查点微调的模型进行无偏比较。数据集的应用领域包括测试使用元数据(如精确的地理位置、生境和基质)提高分类准确性的能力,以及研究设备设置对分类性能的影响。

Danish Fungi 2020 (DF20) dataset is constructed from observational data submitted by the Danish Fungi Atlas, containing 295,938 images covering 1,604 fungal species primarily from the kingdom Fungi. This dataset is distinguished by its accurate classification labels, low error rate, highly imbalanced long-tailed class distribution, rich observational metadata, and explicit class hierarchy. The DF20 dataset has no overlap with ImageNet, enabling unbiased comparison of models fine-tuned from publicly available ImageNet checkpoints. Its application areas include testing the ability to improve classification accuracy by leveraging metadata such as precise geographic location, habitat and substrate, as well as researching the impact of device settings on classification performance.
提供机构:
西波西米亚大学
创建时间:
2021-03-18
搜集汇总
数据集介绍
main_image_url
构建方式
在真菌分类学领域,高质量图像数据的稀缺性促使研究者构建了Danish Fungi 2020数据集。该数据集源自丹麦真菌图谱,通过公民科学家的野外观察提交,并经过真菌学专家的严格验证流程。构建过程中,首先筛选了截至2020年底收集的图像,仅保留物种样本超过30张的类别,最终涵盖1,604个物种的295,938张图像。数据分割遵循类别分布,将每个物种90%的图像随机分配至训练集,其余作为测试集,确保了评估的公正性。
特点
该数据集在细粒度视觉分类领域展现出独特优势。其类别标签具有极高的准确性,得益于领域专家的专业标注,且与ImageNet无重叠,为模型微调提供了无偏比较基准。数据分布呈现自然的长尾特性,反映了真实世界中物种的不均匀出现频率。此外,超过99%的图像附有丰富的元数据,包括地理位置、栖息地、基质类型和时间戳等,为多模态学习研究提供了坚实基础。
使用方法
研究者可利用该数据集进行细粒度真菌分类模型的训练与评估。典型流程包括使用预训练的卷积神经网络或视觉Transformer架构在训练集上进行微调,并利用测试集衡量Top1、Top3准确率及宏平均F1分数。元数据可通过后处理概率融合方法整合,例如基于训练集统计估计物种给定元数据的条件概率,以提升分类性能。数据集还支持层次分类、分类器校准及设备依赖性研究,并通过在线基准平台促进成果比较。
背景与挑战
背景概述
在细粒度视觉分类领域,现有数据集常面临类别分布均匀、标签噪声及与ImageNet重叠等问题,限制了其在真实场景中的应用潜力。为应对这些挑战,丹麦真菌2020数据集应运而生,由西波希米亚大学、布拉格捷克理工大学、全球生物多样性信息机构及哥本哈根大学的研究团队于2021年联合构建。该数据集源自丹麦真菌图集,包含295,938张图像,涵盖1,604个真菌物种,其核心研究问题在于推动细粒度分类模型在长尾分布、元数据融合及零ImageNet重叠条件下的性能评估。凭借专家验证的高精度标签、丰富的生境与基质元数据,DF20为真菌识别、分类器校准及跨域迁移学习提供了重要基准,显著提升了生物多样性监测与计算机视觉交叉研究的实证基础。
当前挑战
DF20数据集致力于解决细粒度真菌物种识别的核心挑战,其难点在于物种间视觉差异微小而类内变异显著,例如同属不同种的真菌形态高度相似,这对模型的判别能力提出了极高要求。在构建过程中,研究团队需克服多重困难:首先,确保标签的准确性依赖于真菌学家的专业标注,并计划通过DNA测序进一步验证,以消除标签噪声;其次,数据采集自公民科学平台,需整合异构元数据(如地理位置、生境、时间戳等),并处理其不完整性与不一致性;此外,数据集遵循自然界的长期分布,类别高度不平衡,增加了模型训练与评估的复杂度;最后,为实现与ImageNet的零重叠,需严格分离训练与测试集,避免预训练模型带来的评估偏差。
常用场景
经典使用场景
在细粒度视觉分类领域,Danish Fungi 2020数据集凭借其精确的物种级标注和丰富的元数据,成为评估先进模型性能的经典基准。该数据集独特的长尾类分布和零ImageNet重叠特性,使其成为测试模型在真实、不平衡自然场景下泛化能力的理想平台。研究者常利用其进行视觉Transformer与卷积神经网络的对比实验,探索元数据融合对分类准确率的提升效果。
实际应用
在生物多样性监测和公民科学项目中,Danish Fungi 2020数据集为开发野外真菌自动识别工具提供了核心数据支撑。其整合的地理位置、生长基质、栖息地等元数据,能够辅助开发出更精准、可解释的物种识别应用,服务于生态调查、物种保护乃至公共安全领域,例如帮助区分有毒与可食用蘑菇,具有重要的现实意义。
衍生相关工作
围绕DF20数据集,已衍生出多项经典研究工作,特别是在元数据融合与模型架构创新方面。基于其提供的生境、基质和时间信息,研究者提出了多种后处理与端到端融合方法以提升分类性能。该数据集也常被用于验证视觉Transformer在细粒度任务上的优越性,并催生了针对长尾分布、分类器校准以及跨域适应性等机器学习基础问题的深入探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作