five

imageomics/fish-vista

收藏
Hugging Face2026-01-09 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/imageomics/fish-vista
下载链接
链接失效反馈
官方服务:
资源简介:
Fish-Visual Trait Analysis (Fish-Vista) 数据集是一个包含60,000张鱼类图像的大型注释数据集,涵盖1900种不同物种。该数据集支持多种具有生物学意义的任务,包括物种分类、特征识别和特征分割。这些图像通过复杂的数据处理流程从多个博物馆收藏中获取,并提供了每个图像中各种视觉特征的细粒度标签。此外,数据集还提供了2427张鱼类图像的9种不同特征的像素级注释,用于特征分割和定位任务。

Fish-Visual Trait Analysis (Fish-Vista) dataset is a large annotated dataset containing 60,000 fish images spanning 1,900 distinct species. This dataset supports multiple biologically meaningful tasks, including species classification, trait recognition, and trait segmentation. These images were obtained from multiple museum collections via a complex data processing pipeline, and provide fine-grained labels for various visual traits in each image. Additionally, the dataset also offers pixel-level annotations for 9 distinct traits across 2,427 fish images, targeting trait segmentation and localization tasks.
提供机构:
imageomics
原始信息汇总

数据集卡片:Fish-Visual Trait Analysis (Fish-Vista)

数据集详情

数据集描述

Fish-Visual Trait Analysis (Fish-Vista) 数据集是一个包含 60K 鱼类图像的大型注释集合,涵盖 1900 种不同的物种。该数据集支持多种具有生物学意义的任务,包括物种分类、特征识别和特征分割。这些图像通过复杂的数据处理流程从多个博物馆收藏中精心挑选和处理。Fish-Vista 提供了每个图像中存在的各种视觉特征的细粒度标签,以及 2427 张鱼类图像的 9 种不同特征的像素级注释,便于进行额外的特征分割和定位任务。

Fish-Vista 数据集包含来自以下数据库的博物馆鱼类图像:

这些图像及其相关元数据(包括科学物种名称、物种所属的分类科和许可信息)从 Fish-AIR 仓库 获取。

支持的任务和排行榜

Fish-Vista 数据集支持以下任务:

  • 物种分类 (FV-419):包含约 48K 张图像,涉及 419 种物种。
  • 特征识别 (FV-682):包含约 53K 张图像,涉及 682 种物种。
  • 特征分割 (FV-1200):包含 2,427 张图像,具有 9 种不同特征的像素级注释。

语言

数据集中的文本信息为英语。

数据集结构

数据集目录结构如下:

/dataset/ segmentation_masks/ annotations/ images/ Images/ chunk_1 filename 1 filename 2 ... filename 10k chunk_2 filename 1 filename 2 ... filename 10k . . . chunk_6 filename 1 filename 2 ... filename 10k ND_Processing_Files download_and_process_nd_images.py classification_train.csv classification_test.csv classification_val.csv identification_train.csv identification_test.csv identification_val.csv segmentation_data.csv segmentation_train.csv segmentation_test.csv segmentation_val.csv metadata/ figures/ # 包含在 README 中的图表 data-bib.bib

数据实例

  • 物种分类 (FV-419):包含约 48K 张图像,涉及 419 种物种。

    • 训练集:约 35K 张图像
    • 测试集:约 7.6K 张图像
    • 验证集:约 5K 张图像
  • 特征识别 (FV-682):包含约 53K 张图像,涉及 682 种物种。

    • 训练集:约 38K 张图像
    • 测试集 (test_insp):约 8K 张图像
    • 测试集 (test_lvsp):约 1.9K 张图像
    • 验证集:约 5.2K 张图像
  • 特征分割 (FV-1200):包含 2,427 张图像,具有 9 种不同特征的像素级注释。

    • 训练集:约 1.7K 张图像
    • 测试集:约 600 张图像
    • 验证集:约 120 张图像

数据字段

CSV 文件包含以下字段:

  • filename:处理后图像的唯一文件名。
  • source_filename:源图像的文件名。
  • original_format:原始格式,所有图像为 jpg/jpeg。
  • arkid:FishAIR 的 ARKID。
  • family:分类科。
  • source:源博物馆收藏。
  • owner:源收藏中的所有者机构。
  • standardized_species:Open-tree-taxonomy-resolved 物种名称。
  • original_url:下载原始未处理图像的 URL。
  • file_name:仓库内图像的链接。
  • license:原始图像的许可信息。
  • adipose_fin:脂肪鳍特征的存在/缺失。
  • pelvic_fin:腹鳍特征的存在/缺失。
  • barbel:须特征的存在/缺失。
  • multiple_dorsal_fin:背鳍特征的存在/缺失。

数据分割

每个任务(或子集)的分割由 CSV 文件名指示(例如 classification_<split>.csv)。更多信息在 数据实例 部分提供。

数据集创建

数据收集和处理

Fish-Vista 数据集通过 Fish-AIR 从多个博物馆收藏中精心挑选和处理,包括 Great Lakes Invasives Network (GLIN)iDigBioMorphbank。数据处理流程包括重复图像移除、元数据驱动的过滤、裁剪、使用 Segment Anything Model (SAM) 进行背景移除以及最终的手动过滤阶段。

注释

特征分割子集的注释过程由 Wasila Dahdul 领导,NEON 的三名成员使用 CVAT 对图像中的九个外部特征进行标注。这些特征对应于 UBERON 解剖学本体中的以下术语:

  1. 眼睛,UBERON_0000019
  2. 头部,UBERON_0000033
  3. 须,UBERON_2000622
  4. 背鳍,UBERON_0003097
  5. 脂肪鳍,UBERON_2000251
  6. 胸鳍,UBERON_0000151
  7. 腹鳍,UBERON_0000152
  8. 肛鳍,UBERON_4000163
  9. 尾鳍,UBERON_4000164

个人和敏感信息

数据集中不包含个人或敏感信息。

使用数据的注意事项

讨论偏见和其他已知限制

  • 数据集存在不平衡和长尾分布。
  • 继承了博物馆图像固有的偏见。
  • 训练集中可能包含少量噪声图像。

许可信息

数据集中的源图像具有各种许可,主要在 Creative Commons 家族内。我们在 HuggingFace 仓库中的元数据 CSV 文件中提供了许可和引用信息,包括每个图像的源机构。此外,我们将每个图像归属于其原始 FishAIR URL。

数据集的许可为 CC-BY-NC 4.0。然而,数据集中的个别图像可能有不同的许可,这些许可在我们的 CSV 文件中指定。

引用

BibTeX:

数据

@misc{<ref_code>, author = {Kazi Sajeed Mehrab and M. Maruf and Arka Daw and Harish Babu Manogaran and Abhilash Neog and Mridul Khurana and Bahadir Altintas and Yasin Bakış and Elizabeth G Campolongo and Matthew J Thompson and Xiaojun Wang and Hilmar Lapp and Wei-Lun Chao and Paula M. Mabee and Henry L. Bart Jr. and Wasila Dahdul and Anuj Karpatne}, title = {Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from Images}, year = {2024}, url = {https://huggingface.co/datasets/imageomics/fish-vista}, doi = {<doi once generated>}, publisher = {Hugging Face} }

请确保也引用原始数据源,使用 metadata/data-bib.bib 中提供的引用。

搜集汇总
数据集介绍
main_image_url
构建方式
Fish-Vista数据集通过从多个博物馆收藏中精心筛选和处理图像构建而成,包括Great Lakes Invasives Network (GLIN)、iDigBio和Morphbank等。数据集的构建过程包括去除重复图像、基于元数据的筛选、使用Segment Anything Model (SAM)进行背景去除以及手动过滤等步骤。这些步骤确保了数据集的高质量和多样性,支持物种分类、特征识别和特征分割等生物学相关任务。
特点
Fish-Vista数据集的显著特点在于其精细的标注和多样化的任务支持。数据集包含约60,000张鱼类图像,涵盖1,900多个物种,并提供了9种不同特征的像素级标注。此外,数据集还提供了物种级别的特征标签,支持多标签分类任务。这些特点使得Fish-Vista成为生物学研究和人工智能应用的理想数据集。
使用方法
Fish-Vista数据集的使用方法包括下载整个数据集或仅加载CSV文件。用户可以通过Git LFS克隆数据集,并使用提供的Python脚本下载和处理受版权保护的图像。数据集支持多种任务,如物种分类、特征识别和特征分割,用户可以根据任务需求选择相应的CSV文件进行加载和处理。此外,数据集还提供了示例代码,帮助用户快速上手使用分割数据集。
背景与挑战
背景概述
Fish-Vista数据集是由Imageomics机构精心策划的一个大型鱼类图像数据集,涵盖了1900多种鱼类,共计60,000多张图像。该数据集的核心研究问题包括物种分类、特征识别和特征分割,旨在通过提供细粒度的视觉特征标签,推动生物学领域的研究进展。Fish-Vista数据集的创建源于对现有鱼类数据集缺乏细粒度特征标签的认知,特别是对于特征分割任务的支持不足。通过从多个博物馆收藏中获取图像,并结合Fish-AIR、Phenoscape和FishBase等资源,Fish-Vista数据集为生物多样性研究和宏观进化趋势分析提供了强有力的支持。
当前挑战
Fish-Vista数据集在构建过程中面临多项挑战。首先,数据集的构建需要从多个博物馆收藏中整合图像,并进行严格的去重、过滤和背景去除处理,这增加了数据处理的复杂性。其次,特征分割任务需要对图像进行像素级的标注,这一过程耗时且容易出错。此外,数据集的类别分布不均衡,存在长尾效应,这为模型训练带来了挑战。最后,数据集继承了博物馆图像的固有偏见,可能影响模型的泛化能力。
常用场景
经典使用场景
Fish-Vista数据集在生物学和计算机视觉领域中具有广泛的应用,尤其在鱼类物种分类、特征识别和特征分割任务中表现出色。该数据集包含了超过60,000张鱼类图像,涵盖1900多种鱼类物种,并提供了详细的物种分类标签和9种不同特征的像素级分割标注。这些数据为研究人员提供了丰富的资源,用于开发和验证基于图像的鱼类分类和特征识别算法。
实际应用
Fish-Vista数据集在实际应用中具有广泛的潜力,特别是在生态保护、渔业管理和生物多样性监测等领域。通过利用该数据集训练的模型,研究人员可以快速识别鱼类物种及其特征,从而支持水生生态系统的健康评估和入侵物种的监测。此外,该数据集还可用于开发自动化鱼类识别系统,应用于渔业资源管理、水产养殖和科学教育等领域。
衍生相关工作
Fish-Vista数据集的发布激发了许多相关研究工作,尤其是在鱼类物种分类和特征识别领域。基于该数据集的研究成果包括改进的图像分类算法、多标签分类方法以及特征分割技术的创新应用。此外,该数据集还为开发基于深度学习的鱼类特征自动识别系统提供了基础,推动了计算机视觉技术在生物学研究中的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作