five

Danish Fungi 2020

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/picekl/DanishFungiDataset
下载链接
链接失效反馈
官方服务:
资源简介:
支持细粒度植物分类研究,并允许完全重现我们的结果。数据集包含图像、检查点和元数据,但基于大小限制,这些内容将在审查后发布。

This dataset supports fine-grained plant classification research and allows for the complete reproduction of our results. It includes images, checkpoints, and metadata; however, due to size limitations, these contents will be released post-review.
创建时间:
2021-03-22
原始信息汇总

数据集概述

数据集名称

  • Danish Fungi 2020 - Not Just Another Image Recognition Dataset

数据集作者

  • Lukas Picek

数据集描述

  • 该数据集旨在支持细粒度植物分类的研究,并允许完全重现研究结果。数据集包括训练日志和训练脚本,但不包括图像、检查点和元数据,这些将在审查后发布。

训练数据访问

训练环境设置

  • 使用 PyTorch NGC Docker Image 进行训练。
  • 安装的依赖包括 pandas, seaborn, timm, albumentation, tqdm, efficientnet_pytorch, pretrainedmodels。

结果

  • CNN性能评估:评估了多种CNN架构在DF20和DF20-Mini数据集上的分类性能。
  • ViT x CNN性能评估:评估了CNN和ViT架构在DF20和DF20-Mini数据集上的分类结果。
  • 元数据使用实验:展示了使用Fungus观察元数据(Habitat, Substrate, Month)对DF20数据集性能的影响。

许可证

  • 数据集和代码发布在BSD许可证下,限制商业使用。

引用信息

  • 如果使用该数据集,请引用以下文献:

    @article{picek2021danish, title={Danish Fungi 2020 - Not Just Another Image Recognition Dataset}, author={Lukáš Picek and Milan Šulc and Jiří Matas and Jacob Heilmann-Clausen and Thomas S. Jeppesen and Thomas Læssøe and Tobias Frøslev}, year={2021}, eprint={2103.10107}, archivePrefix={arXiv}, primaryClass={cs.CV} }

联系方式

  • Lukas Picek
    • Email: lukaspicek@gmail.com, picekl@ntis.zcu.cz
搜集汇总
数据集介绍
main_image_url
构建方式
Danish Fungi 2020(DF20)数据集的构建基于丹麦真菌图谱中的观察记录,这些记录被精心筛选以确保标签的准确性。该数据集的构建过程中,特别注重了标签的精确性,确保了极少甚至没有标签错误。此外,数据集的构建还考虑了观察的元数据,包括环境、位置、时间和设备信息,这些元数据为后续的研究提供了丰富的背景信息。
特点
DF20数据集的一个显著特点是其标签的精确性,这在真菌分类学中尤为重要,因为细微的差异可能导致完全不同的分类。此外,该数据集展示了高度不平衡的长尾类分布,这为研究者提供了一个挑战性的环境,以测试和改进分类模型的鲁棒性。丰富的元数据也为研究提供了多维度的分析可能性,如地理定位、栖息地和基质等。
使用方法
使用Danish Fungi 2020数据集时,研究者可以通过提供的链接下载图像和元数据文件。数据集支持多种图像分辨率,包括全尺寸和最大边长为300像素的版本。为了便于研究,数据集还提供了预训练模型和训练日志,这些资源可以在Hugging Face和Weights & Biases平台上获取。研究者可以使用提供的训练脚本和配置文件进行模型训练,并通过元数据融合技术进一步提高分类性能。
背景与挑战
背景概述
Danish Fungi 2020(DF20)数据集由Lukas Picek等人创建,旨在推动细粒度视觉分类领域的研究。该数据集源自丹麦真菌图谱的观察记录,以其准确的分类标签、高度不平衡的长尾类分布以及丰富的观察元数据(如环境、位置、时间和设备信息)而著称。DF20的独特之处在于其与ImageNet无重叠,确保了模型从公开的ImageNet检查点微调后的比较结果不受偏见影响。该数据集的发布不仅为植物分类研究提供了新的资源,还促进了研究的可重复性,特别是在利用元数据改进分类和校准分类器方面。
当前挑战
Danish Fungi 2020数据集在构建和应用过程中面临多项挑战。首先,细粒度分类本身就是一个复杂的问题,尤其是在真菌分类中,物种间的细微差异增加了识别难度。其次,数据集的高度不平衡性要求模型具备处理长尾分布的能力。此外,数据集的构建过程中,确保标签的准确性和元数据的质量也是一大挑战。最后,如何有效利用丰富的元数据来提升分类性能,同时避免过拟合,是该数据集在实际应用中需要解决的关键问题。
常用场景
经典使用场景
Danish Fungi 2020数据集在细粒度视觉分类领域中具有经典应用场景。该数据集通过其高精度的分类标签和丰富的环境元数据,为研究者提供了一个理想平台,用以探索和优化基于图像的菌类识别模型。其独特的长尾类分布特性,使得模型在处理罕见菌类时表现尤为突出,从而推动了细粒度分类技术的发展。
实际应用
在实际应用中,Danish Fungi 2020数据集为菌类识别提供了强有力的支持。例如,在生态学研究中,该数据集帮助科学家快速准确地识别和分类菌类,从而更好地理解生态系统的多样性和动态变化。此外,在农业和食品安全领域,准确的菌类识别有助于监控和预防有害菌类的扩散,保障食品安全。
衍生相关工作
Danish Fungi 2020数据集的发布催生了多项相关研究工作。例如,基于该数据集的预训练模型在多个国际计算机视觉会议上展示了其优越性能,推动了细粒度分类技术的发展。此外,数据集的元数据融合方法也为后续研究提供了新的思路,特别是在如何有效利用多源数据提升分类性能方面,激发了广泛的学术探讨和实践应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作