FungiTastic
收藏arXiv2024-08-25 更新2024-08-28 收录
下载链接:
https://bohemianvra.github.io/FungiTastic/
下载链接
链接失效反馈官方服务:
资源简介:
FungiTastic数据集由西波希米亚大学与INRIA、布拉格捷克技术大学联合创建,是一个包含约35万条记录的多模态数据集,涵盖超过65万张真菌照片及详细元数据。数据集的创建基于长达二十年的持续数据收集,旨在支持多种机器学习任务,如标准闭集分类、开放集分类等。数据集内容丰富,包括时间戳、相机设置、地理位置等元数据,以及卫星图像和生物分类信息。该数据集的应用领域广泛,主要用于解决生物学中的图像分类问题,特别是在真菌分类和识别方面。
The FungiTastic dataset was jointly developed by the University of West Bohemia, INRIA, and Czech Technical University in Prague. It is a multimodal dataset containing approximately 350,000 records, covering over 650,000 fungal photographs and detailed metadata. Constructed based on two decades of continuous data collection, this dataset aims to support various machine learning tasks such as standard closed-set classification and open-set classification. The dataset includes comprehensive metadata including timestamps, camera settings, and geographic locations, as well as satellite imagery and biological classification information. It has broad application scenarios, mainly being used to solve image classification problems in biology, particularly for fungal classification and recognition.
提供机构:
西波希米亚大学 & INRIA, 布拉格捷克技术大学
创建时间:
2024-08-25
原始信息汇总
数据集概述
数据集名称
The FungiTastic Dataset
数据集描述
FungiTastic 是一个综合性的多模态机器学习数据集,用于从图像和元数据中对真菌进行分类。该数据集包括真菌观察的图像、卫星图像、气象观测、分割掩码和文本元数据。元数据丰富了观察结果,包括时间戳、相机设置、GPS位置以及基质、栖息地和生物分类信息等属性。通过结合多种模态,该数据集支持强大的多模态分类基准,能够在现实和动态条件下开发和评估复杂的机器学习模型。
数据集内容
- 图像数据:包括真菌观察的图像、卫星图像和分割掩码。
- 元数据:包括时间戳、相机设置、GPS位置、基质、栖息地和生物分类信息等。
数据集子集
- FungiTastic Closed Set:包括训练集、验证集和测试集,分别包含246,884、45,616和48,379个观察结果。
- FungiTastic-M Closed Set:小型子集,主要用于原型设计,包含25,786、4,687和5,531个观察结果。
- FungiTastic-FS Closed Set:少数样本子集,包含4,293、1,099和998个观察结果。
- FungiTastic Open Set:包括训练集、验证集和测试集,分别包含246,884、47,453和50,085个观察结果。
- FungiTastic-M Open Set:小型子集,包含25,786、4,703和5,587个观察结果。
数据集统计
- 总图像数:超过650,000张。
- 总观察数:超过350,000个。
- 类别分布:具有长尾分布,具体分布见图2。
评估和指标
数据集考虑了五种不同的问题及其相应的评估指标:
- 具有重长尾分布的细粒度闭集分类。
- 带有分布外(OOD)检测的标准闭集分类。
- 使用非标准成本函数的分类。
- 用于基准测试适应方法的时间排序数据集上的分类。
- 具有少量训练观察的物种的少数样本分类。
基线结果
提供了不同架构在不同子集上的性能指标,包括Top1、Top3和F1m等。
数据集下载
搜集汇总
数据集介绍

构建方式
FungiTastic数据集的构建基于二十年间持续收集的真菌记录,这些记录由专家进行标注和整理。数据集包含了约350k的多模态观察数据,包括超过650k张照片,涵盖了5k个细粒度的类别,以及各种伴随信息,如获取元数据、卫星图像和身体部位分割。FungiTastic是唯一一个包含部分DNA测序的测试集,具有前所未有的标签可靠性,旨在支持标准闭集分类、开集分类、多模态分类、少样本学习和领域转移等多种场景。
特点
FungiTastic数据集的特点在于其多模态性,每个观察数据都标注了如时间戳、相机元数据、位置(经度、纬度、海拔)、基质、栖息地和生物分类标签等属性,这些属性丰富了观察数据,为详细研究和高级分类任务提供了便利。此外,数据集还包含了测试和验证数据,这些数据之前未公开发布,因此未见过大型语言模型(LLMs)和视觉语言模型(VLMs),保证了评估过程的完整性和鲁棒性。
使用方法
使用FungiTastic数据集的方法包括但不限于标准闭集分类、开集分类、多模态分类、少样本学习和领域转移等。数据集支持各种评估协议,包括带有新类别检测的标准分类、非标准成本函数、按时间排序的数据以供测试时间适应方法使用,以及少样本分类。数据集还提供了多种预训练模型和模型训练框架,以方便研究人员使用。
背景与挑战
背景概述
FungiTastic数据集是一个基于真菌记录的全新、极具挑战性的基准和数据库,这些记录由专家在长达二十年的时间里持续收集和标记。该数据集包含了约35万个多模态观测数据,包括超过65万张来自5000个细粒度类别的照片,以及丰富的伴随信息,例如采集元数据、卫星图像和身体部位分割等。FungiTastic是唯一一个包含部分DNA测序真实标签的测试集,这些标签具有前所未有的可靠性。该基准旨在支持标准闭集分类、开放集分类、多模态分类、少样本学习、域偏移等多种任务,并提供了一系列定制化的基线方法。此外,数据集在HuggingFace上提供了众多预训练模型和一个模型训练框架,同时在GitHub和Kaggle上提供了详尽的文档描述数据集特点和基线方法。FungiTastic数据集的创建旨在解决生物学数据中的季节性分布、细粒度分类、长尾分布、新物种发现和类别的层次结构等挑战,并为机器学习模型提供更贴近现实世界动态条件下的评估平台。
当前挑战
FungiTastic数据集面临着多种挑战,包括:1)解决领域问题:数据集的开放集分类任务十分具有挑战性,因为许多未知物种与已知物种外观相似;2)构建过程中的挑战:数据集包含来自自然界的多模态数据,需要处理和整合不同类型的数据,例如照片、卫星图像、气象观测、分割掩码和文本元数据,这需要开发新的数据处理和整合方法。此外,数据集的长期收集和更新可能引入数据分布的偏差,需要采取措施减少这种影响。
常用场景
经典使用场景
FungiTastic数据集被设计用于支持多种机器学习和图像分类任务,包括标准闭集分类、开集分类、多模态分类、少样本学习以及领域迁移等。该数据集包含了超过650,000张照片,涵盖了5,000个细粒度的分类,并附带了诸如采集元数据、卫星图像和身体部分分割等多样化的伴随信息。这使得FungiTastic成为了一个极具挑战性的基准数据集,能够帮助研究者评估和开发机器学习模型在现实世界条件下的性能。
实际应用
FungiTastic数据集在实际应用场景中具有广泛的应用前景,例如真菌分类、物种识别、环境监测等。该数据集的多模态特性使得它能够支持更加复杂的分类任务,例如结合视觉数据和元数据进行分类。此外,FungiTastic数据集还支持开集分类,这使得它能够用于识别未知的物种或类别,这在现实世界中具有重要的应用价值。
衍生相关工作
FungiTastic数据集的发布也衍生了大量的相关工作,包括针对多模态分类、少样本学习和领域迁移的新的机器学习算法。这些工作不仅提高了机器学习模型在FungiTastic数据集上的性能,同时也为其他领域的数据集提供了新的思路和方法。例如,一些研究者使用FungiTastic数据集来开发新的图像分割算法,这些算法能够更准确地识别真菌的不同部分,从而提高分类的准确性。
以上内容由遇见数据集搜集并总结生成



