Fish-Vista

Name: Fish-Vista
Creator: 弗吉尼亚理工大学
Published: 2024-07-11 04:10:56
License: 暂无描述

arXiv2024-07-11 更新2024-07-14 收录

下载链接：

https://github.com/Imageomics/Fish-Vista

下载链接

链接失效反馈

官方服务：

资源简介：

Fish-Vista数据集是由弗吉尼亚理工大学等机构创建的，包含约60K条高质量鱼类图像，覆盖近1900种鱼类。数据集通过复杂的数据处理流程，从多个博物馆收藏中筛选出初始的107K图像，经过去重、元数据过滤、裁剪和背景移除等步骤，确保图像适合机器学习应用。Fish-Vista数据集不仅提供了细粒度的视觉特征标签，还提供了2427张图像的像素级特征分割，支持物种分类、特征识别和特征分割等任务。该数据集旨在通过AI技术的进步，加速生物学发现，特别是在理解鱼类特征和进化趋势方面。

The Fish-Vista dataset was developed by Virginia Tech and other institutions. It contains approximately 60,000 high-quality fish images spanning nearly 1,900 fish species. The dataset originated from an initial set of 107,000 images collected from multiple museum collections, and underwent a rigorous data processing workflow including deduplication, metadata filtering, cropping, and background removal to ensure the images are suitable for machine learning applications. In addition to fine-grained visual feature labels, Fish-Vista also provides pixel-level feature segmentation annotations for 2,427 images, supporting tasks such as species classification, feature recognition, and feature segmentation. This dataset aims to accelerate biological discoveries, particularly in the understanding of fish traits and evolutionary trends through advancements in AI technology.

提供机构：

弗吉尼亚理工大学

创建时间：

2024-07-11

原始信息汇总

Fish-Vista 数据集概述

简介

Fish-Visual Trait Analysis (Fish-Vista) 数据集是一个包含 60K 张鱼类图像的大型注释集合，涵盖 1900 种不同的鱼类物种。该数据集支持多种具有挑战性和生物学相关性的任务，包括物种分类、特征识别和特征分割。这些图像通过一个复杂的数据处理流程从多个博物馆收藏中获取的累积图像集中筛选得到。Fish-Vista 提供了每个图像中存在的各种视觉特征的细粒度标签，并为 2427 张鱼类图像提供了 9 种不同特征的像素级注释，便于进行额外的特征分割和定位任务。

Fish-Vista 数据集包含来自 Great Lakes Invasives Network (GLIN)、iDigBio 和 Morphbank 数据库的博物馆鱼类图像。我们从 Fish-AIR 存储库中获取了这些图像以及相关的元数据，包括科学物种名称、物种所属的分类科和许可信息。

引用

请参考我们的数据集卡片引用部分进行引用。

BibTeX: bibtex @misc{<ref_code>, author = {Kazi Sajeed Mehrab and M. Maruf and Arka Daw and Harish Babu Manogaran and Abhilash Neog and Mridul Khurana and Bahadir Altintas and Yasin Bakış and Elizabeth G Campolongo and Matthew J Thompson and Xiaojun Wang and Hilmar Lapp and Wei-Lun Chao and Paula M. Mabee and Henry L. Bart Jr. and Wasila Dahdul and Anuj Karpatne}, title = {Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from Images}, year = {2024}, url = {https://huggingface.co/datasets/imageomics/fish-vista}, doi = {<doi once generated>}, publisher = {Hugging Face} }

请确保同时引用原始数据源，引用信息可在这里找到。

搜集汇总

数据集介绍

构建方式

Fish-Vista数据集通过一个复杂的数据处理管道构建，该管道应用于从多个博物馆收藏中获取的累积图像集。该管道包括重复图像移除、元数据驱动的过滤、裁剪、使用Segment Anything Model（SAM）进行背景移除以及最终的手动过滤阶段。这些步骤确保了数据集的高质量和一致性，使其适用于多种生物学相关的任务。

特点

Fish-Vista数据集的一个显著特点是其精细的标签和高分辨率图像。它提供了大约60K张鱼类图像，涵盖近1900种不同的鱼类，每张图像都标注了多种视觉特征。此外，数据集还提供了2427张图像的像素级特征标注，这为特征分割和定位任务提供了额外的支持。

使用方法

Fish-Vista数据集可用于多种机器学习任务，包括物种分类、特征识别和特征分割。用户可以通过访问HuggingFace仓库下载数据集，并使用提供的CSV文件进行数据加载和处理。数据集还提供了标准的训练、测试和验证分割，便于模型的训练和评估。

背景与挑战

背景概述

鱼类在生态系统和经济领域中占据重要地位，研究鱼类特征对于理解生物多样性模式和宏观进化趋势至关重要。为了从鱼类图像中分析视觉特征，我们引入了Fish-Vista数据集——一个包含约60,000张鱼类图像的大型注释集合，涵盖1900种不同的鱼类，支持多种具有挑战性和生物学意义的任务，包括物种分类、特征识别和特征分割。这些图像通过复杂的数据处理管道从各种博物馆收藏中获取。Fish-Vista提供了每个图像中各种视觉特征的细粒度标签，并为2427张鱼类图像提供了9种不同特征的像素级注释，促进了额外的特征分割和定位任务。Fish-Vista的最终目标是提供一个干净、精心策划的高分辨率数据集，作为利用AI加速生物学发现的基础。

当前挑战

Fish-Vista数据集面临的挑战包括：1) 现有生物学数据集主要面向物种分类，缺乏对详细生物学研究至关重要的特征级注释；2) 虽然一些数据集提供图像分割注释，但通常仅区分整个样本（如鱼类）与背景，这种样本分割可以使用最先进的模型（如Segment Anything Model）轻松完成，但对理解特定可观察特征的定位贡献不大；3) 这些数据集主要由在自然栖息地（如水下环境）捕获的图像组成，这些图像通常缺乏清晰度，无法清晰展示生物特征。因此，需要一个精心策划的、适合机器学习的数据集，允许在受控环境中研究鱼类，并提供详细的特征级信息以支持多种下游任务。

常用场景

经典使用场景

Fish-Vista数据集的经典使用场景主要集中在鱼类物种分类、特征识别和特征分割等生物学相关任务上。通过提供约60,000张标注的鱼类图像，涵盖近1,900种不同的鱼类，该数据集支持多种具有生物学意义的挑战性任务。这些任务包括从图像中识别鱼类的科学名称、识别可观察的特征（如鱼类的形状、鳍的存在/缺失等），以及精确地从图像中定位这些特征。

实际应用

Fish-Vista数据集在实际应用中具有广泛的前景，特别是在生态系统监测和渔业管理领域。例如，它可以用于开发自动化的鱼类识别系统，帮助渔业管理者更有效地监控和管理渔业资源。此外，该数据集还可用于研究和开发新的生物特征识别技术，以支持环境保护和生物多样性保护工作。

衍生相关工作

Fish-Vista数据集的发布催生了一系列相关的经典工作，特别是在生物特征识别和图像分割领域。例如，基于该数据集的研究已经推动了深度学习技术在生物图像分析中的应用，尤其是在特征识别和分割任务上。此外，Fish-Vista还激发了对弱监督语义分割和处理类别不平衡问题的研究，进一步扩展了其在机器学习和计算机视觉领域的应用。

以上内容由遇见数据集搜集并总结生成