imageomics/fish-vista
收藏数据集卡片:Fish-Visual Trait Analysis (Fish-Vista)
数据集详情
数据集描述
Fish-Visual Trait Analysis (Fish-Vista) 数据集是一个包含 60K 鱼类图像的大型注释集合,涵盖 1900 种不同的物种。该数据集支持多种具有生物学意义的任务,包括物种分类、特征识别和特征分割。这些图像通过复杂的数据处理流程从多个博物馆收藏中精心挑选和处理。Fish-Vista 提供了每个图像中存在的各种视觉特征的细粒度标签,以及 2427 张鱼类图像的 9 种不同特征的像素级注释,便于进行额外的特征分割和定位任务。
Fish-Vista 数据集包含来自以下数据库的博物馆鱼类图像:
这些图像及其相关元数据(包括科学物种名称、物种所属的分类科和许可信息)从 Fish-AIR 仓库 获取。
支持的任务和排行榜
Fish-Vista 数据集支持以下任务:
- 物种分类 (FV-419):包含约 48K 张图像,涉及 419 种物种。
- 特征识别 (FV-682):包含约 53K 张图像,涉及 682 种物种。
- 特征分割 (FV-1200):包含 2,427 张图像,具有 9 种不同特征的像素级注释。
语言
数据集中的文本信息为英语。
数据集结构
数据集目录结构如下:
/dataset/ segmentation_masks/ annotations/ images/ Images/ chunk_1 filename 1 filename 2 ... filename 10k chunk_2 filename 1 filename 2 ... filename 10k . . . chunk_6 filename 1 filename 2 ... filename 10k ND_Processing_Files download_and_process_nd_images.py classification_train.csv classification_test.csv classification_val.csv identification_train.csv identification_test.csv identification_val.csv segmentation_data.csv segmentation_train.csv segmentation_test.csv segmentation_val.csv metadata/ figures/ # 包含在 README 中的图表 data-bib.bib
数据实例
-
物种分类 (FV-419):包含约 48K 张图像,涉及 419 种物种。
- 训练集:约 35K 张图像
- 测试集:约 7.6K 张图像
- 验证集:约 5K 张图像
-
特征识别 (FV-682):包含约 53K 张图像,涉及 682 种物种。
- 训练集:约 38K 张图像
- 测试集 (test_insp):约 8K 张图像
- 测试集 (test_lvsp):约 1.9K 张图像
- 验证集:约 5.2K 张图像
-
特征分割 (FV-1200):包含 2,427 张图像,具有 9 种不同特征的像素级注释。
- 训练集:约 1.7K 张图像
- 测试集:约 600 张图像
- 验证集:约 120 张图像
数据字段
CSV 文件包含以下字段:
filename:处理后图像的唯一文件名。source_filename:源图像的文件名。original_format:原始格式,所有图像为 jpg/jpeg。arkid:FishAIR 的 ARKID。family:分类科。source:源博物馆收藏。owner:源收藏中的所有者机构。standardized_species:Open-tree-taxonomy-resolved 物种名称。original_url:下载原始未处理图像的 URL。file_name:仓库内图像的链接。license:原始图像的许可信息。adipose_fin:脂肪鳍特征的存在/缺失。pelvic_fin:腹鳍特征的存在/缺失。barbel:须特征的存在/缺失。multiple_dorsal_fin:背鳍特征的存在/缺失。
数据分割
每个任务(或子集)的分割由 CSV 文件名指示(例如 classification_<split>.csv)。更多信息在 数据实例 部分提供。
数据集创建
数据收集和处理
Fish-Vista 数据集通过 Fish-AIR 从多个博物馆收藏中精心挑选和处理,包括 Great Lakes Invasives Network (GLIN)、iDigBio 和 Morphbank。数据处理流程包括重复图像移除、元数据驱动的过滤、裁剪、使用 Segment Anything Model (SAM) 进行背景移除以及最终的手动过滤阶段。
注释
特征分割子集的注释过程由 Wasila Dahdul 领导,NEON 的三名成员使用 CVAT 对图像中的九个外部特征进行标注。这些特征对应于 UBERON 解剖学本体中的以下术语:
- 眼睛,UBERON_0000019
- 头部,UBERON_0000033
- 须,UBERON_2000622
- 背鳍,UBERON_0003097
- 脂肪鳍,UBERON_2000251
- 胸鳍,UBERON_0000151
- 腹鳍,UBERON_0000152
- 肛鳍,UBERON_4000163
- 尾鳍,UBERON_4000164
个人和敏感信息
数据集中不包含个人或敏感信息。
使用数据的注意事项
讨论偏见和其他已知限制
- 数据集存在不平衡和长尾分布。
- 继承了博物馆图像固有的偏见。
- 训练集中可能包含少量噪声图像。
许可信息
数据集中的源图像具有各种许可,主要在 Creative Commons 家族内。我们在 HuggingFace 仓库中的元数据 CSV 文件中提供了许可和引用信息,包括每个图像的源机构。此外,我们将每个图像归属于其原始 FishAIR URL。
数据集的许可为 CC-BY-NC 4.0。然而,数据集中的个别图像可能有不同的许可,这些许可在我们的 CSV 文件中指定。
引用
BibTeX:
数据
@misc{<ref_code>, author = {Kazi Sajeed Mehrab and M. Maruf and Arka Daw and Harish Babu Manogaran and Abhilash Neog and Mridul Khurana and Bahadir Altintas and Yasin Bakış and Elizabeth G Campolongo and Matthew J Thompson and Xiaojun Wang and Hilmar Lapp and Wei-Lun Chao and Paula M. Mabee and Henry L. Bart Jr. and Wasila Dahdul and Anuj Karpatne}, title = {Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from Images}, year = {2024}, url = {https://huggingface.co/datasets/imageomics/fish-vista}, doi = {<doi once generated>}, publisher = {Hugging Face} }
请确保也引用原始数据源,使用 metadata/data-bib.bib 中提供的引用。




