five

FungiTastic|真菌分类数据集|机器学习数据集

收藏
arXiv2024-08-25 更新2024-08-28 收录
真菌分类
机器学习
下载链接:
https://bohemianvra.github.io/FungiTastic/
下载链接
链接失效反馈
资源简介:
FungiTastic数据集由西波希米亚大学与INRIA、布拉格捷克技术大学联合创建,是一个包含约35万条记录的多模态数据集,涵盖超过65万张真菌照片及详细元数据。数据集的创建基于长达二十年的持续数据收集,旨在支持多种机器学习任务,如标准闭集分类、开放集分类等。数据集内容丰富,包括时间戳、相机设置、地理位置等元数据,以及卫星图像和生物分类信息。该数据集的应用领域广泛,主要用于解决生物学中的图像分类问题,特别是在真菌分类和识别方面。
提供机构:
西波希米亚大学 & INRIA, 布拉格捷克技术大学
创建时间:
2024-08-25
原始信息汇总

数据集概述

数据集名称

The FungiTastic Dataset

数据集描述

FungiTastic 是一个综合性的多模态机器学习数据集,用于从图像和元数据中对真菌进行分类。该数据集包括真菌观察的图像、卫星图像、气象观测、分割掩码和文本元数据。元数据丰富了观察结果,包括时间戳、相机设置、GPS位置以及基质、栖息地和生物分类信息等属性。通过结合多种模态,该数据集支持强大的多模态分类基准,能够在现实和动态条件下开发和评估复杂的机器学习模型。

数据集内容

  • 图像数据:包括真菌观察的图像、卫星图像和分割掩码。
  • 元数据:包括时间戳、相机设置、GPS位置、基质、栖息地和生物分类信息等。

数据集子集

  • FungiTastic Closed Set:包括训练集、验证集和测试集,分别包含246,884、45,616和48,379个观察结果。
  • FungiTastic-M Closed Set:小型子集,主要用于原型设计,包含25,786、4,687和5,531个观察结果。
  • FungiTastic-FS Closed Set:少数样本子集,包含4,293、1,099和998个观察结果。
  • FungiTastic Open Set:包括训练集、验证集和测试集,分别包含246,884、47,453和50,085个观察结果。
  • FungiTastic-M Open Set:小型子集,包含25,786、4,703和5,587个观察结果。

数据集统计

  • 总图像数:超过650,000张。
  • 总观察数:超过350,000个。
  • 类别分布:具有长尾分布,具体分布见图2。

评估和指标

数据集考虑了五种不同的问题及其相应的评估指标:

  1. 具有重长尾分布的细粒度闭集分类。
  2. 带有分布外(OOD)检测的标准闭集分类。
  3. 使用非标准成本函数的分类。
  4. 用于基准测试适应方法的时间排序数据集上的分类。
  5. 具有少量训练观察的物种的少数样本分类。

基线结果

提供了不同架构在不同子集上的性能指标,包括Top1、Top3和F1m等。

数据集下载

AI搜集汇总
数据集介绍
main_image_url
构建方式
FungiTastic数据集的构建基于二十年间持续收集的真菌记录,这些记录由专家进行标注和整理。数据集包含了约350k的多模态观察数据,包括超过650k张照片,涵盖了5k个细粒度的类别,以及各种伴随信息,如获取元数据、卫星图像和身体部位分割。FungiTastic是唯一一个包含部分DNA测序的测试集,具有前所未有的标签可靠性,旨在支持标准闭集分类、开集分类、多模态分类、少样本学习和领域转移等多种场景。
特点
FungiTastic数据集的特点在于其多模态性,每个观察数据都标注了如时间戳、相机元数据、位置(经度、纬度、海拔)、基质、栖息地和生物分类标签等属性,这些属性丰富了观察数据,为详细研究和高级分类任务提供了便利。此外,数据集还包含了测试和验证数据,这些数据之前未公开发布,因此未见过大型语言模型(LLMs)和视觉语言模型(VLMs),保证了评估过程的完整性和鲁棒性。
使用方法
使用FungiTastic数据集的方法包括但不限于标准闭集分类、开集分类、多模态分类、少样本学习和领域转移等。数据集支持各种评估协议,包括带有新类别检测的标准分类、非标准成本函数、按时间排序的数据以供测试时间适应方法使用,以及少样本分类。数据集还提供了多种预训练模型和模型训练框架,以方便研究人员使用。
背景与挑战
背景概述
FungiTastic数据集是一个基于真菌记录的全新、极具挑战性的基准和数据库,这些记录由专家在长达二十年的时间里持续收集和标记。该数据集包含了约35万个多模态观测数据,包括超过65万张来自5000个细粒度类别的照片,以及丰富的伴随信息,例如采集元数据、卫星图像和身体部位分割等。FungiTastic是唯一一个包含部分DNA测序真实标签的测试集,这些标签具有前所未有的可靠性。该基准旨在支持标准闭集分类、开放集分类、多模态分类、少样本学习、域偏移等多种任务,并提供了一系列定制化的基线方法。此外,数据集在HuggingFace上提供了众多预训练模型和一个模型训练框架,同时在GitHub和Kaggle上提供了详尽的文档描述数据集特点和基线方法。FungiTastic数据集的创建旨在解决生物学数据中的季节性分布、细粒度分类、长尾分布、新物种发现和类别的层次结构等挑战,并为机器学习模型提供更贴近现实世界动态条件下的评估平台。
当前挑战
FungiTastic数据集面临着多种挑战,包括:1)解决领域问题:数据集的开放集分类任务十分具有挑战性,因为许多未知物种与已知物种外观相似;2)构建过程中的挑战:数据集包含来自自然界的多模态数据,需要处理和整合不同类型的数据,例如照片、卫星图像、气象观测、分割掩码和文本元数据,这需要开发新的数据处理和整合方法。此外,数据集的长期收集和更新可能引入数据分布的偏差,需要采取措施减少这种影响。
常用场景
经典使用场景
FungiTastic数据集被设计用于支持多种机器学习和图像分类任务,包括标准闭集分类、开集分类、多模态分类、少样本学习以及领域迁移等。该数据集包含了超过650,000张照片,涵盖了5,000个细粒度的分类,并附带了诸如采集元数据、卫星图像和身体部分分割等多样化的伴随信息。这使得FungiTastic成为了一个极具挑战性的基准数据集,能够帮助研究者评估和开发机器学习模型在现实世界条件下的性能。
实际应用
FungiTastic数据集在实际应用场景中具有广泛的应用前景,例如真菌分类、物种识别、环境监测等。该数据集的多模态特性使得它能够支持更加复杂的分类任务,例如结合视觉数据和元数据进行分类。此外,FungiTastic数据集还支持开集分类,这使得它能够用于识别未知的物种或类别,这在现实世界中具有重要的应用价值。
衍生相关工作
FungiTastic数据集的发布也衍生了大量的相关工作,包括针对多模态分类、少样本学习和领域迁移的新的机器学习算法。这些工作不仅提高了机器学习模型在FungiTastic数据集上的性能,同时也为其他领域的数据集提供了新的思路和方法。例如,一些研究者使用FungiTastic数据集来开发新的图像分割算法,这些算法能够更准确地识别真菌的不同部分,从而提高分类的准确性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

IUCN Red List

IUCN Red List(国际自然保护联盟濒危物种红色名录)是一个全球性的物种评估数据库,旨在提供关于生物多样性状况的科学信息。该数据集包含了全球范围内动植物物种的分类、分布、种群趋势、威胁因素和保护措施等信息。

www.iucnredlist.org 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录