five

WHOI-Plankton|浮游生物分类数据集|海洋生态学数据集

收藏
arXiv2015-10-03 更新2024-06-21 收录
浮游生物分类
海洋生态学
下载链接:
https://github.com/hsosik/WHOI-Plankton
下载链接
链接失效反馈
资源简介:
WHOI-Plankton是由伍兹霍尔海洋研究所创建的大规模细粒度视觉识别数据集,用于浮游生物分类。该数据集包含超过340万张专家标注的图像,涵盖70个类别。数据集通过Imaging FlowCytobot(IFCB)系统收集,该系统自2006年起持续采集浮游生物图像。数据集的创建旨在通过自动化分类方法解决手动分类大型图像集的不切实际性,并提高分类准确性。该数据集广泛应用于海洋生态学研究,特别是在浮游生物的分类和生态系统动态分析中。
提供机构:
伍兹霍尔海洋研究所
创建时间:
2015-10-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
在海洋生态系统中,浮游生物扮演着至关重要的角色。为了研究这些生物,WHOI-Plankton数据集应运而生。该数据集通过伍兹霍尔海洋研究所的成像流式细胞仪(IFCB)持续采集图像,并经过八年时间积累,形成了包含超过340万张由专家标注的图像,涵盖了70个分类。数据集的构建基于IFCB自动抽取海水样本,并通过激光束激发叶绿素荧光来捕获颗粒图像,进而由领域专家进行随机标注。
特点
WHOI-Plankton数据集的特点在于其大规模、细粒度的视觉识别,以及其独特的构建过程。数据集不仅规模庞大,而且每个分类的样本数量代表该分类随时间的自然变化。此外,数据集中的“混合”分类包含了两百万个未能明确分类的颗粒图像,为分类算法提出了额外的挑战。数据集的构建充分考虑了浮游生物分类的复杂性和变化性,为相关研究提供了丰富的资源。
使用方法
使用WHOI-Plankton数据集时,研究人员可根据需要选择2014年之前的20%随机样本作为训练数据,以模拟浮游生物分类随时间变化的评估问题。数据集提供了三种基准分类方法:基于手工特征的选择森林分类器、仅基于浮游生物数据的卷积神经网络(CNNP),以及基于ImageNet预训练网络的微调CNN(CNNFT)。这些方法在2014年的每日数据上进行了评估,使用F1分数作为性能指标,为研究人员提供了算法性能的比较基础。
背景与挑战
背景概述
浮游生物是海洋生态系统中的基础性生物,它们构成了食物链的基础,连接着大气与深海,影响着全球尺度的生物地球化学循环。随着成像技术的进步,科学家们开始利用这些技术来研究浮游生物。在此背景下,WHOI-Plankton数据集应运而生,该数据集由伍兹霍尔海洋研究所的海洋生物学家与加州大学圣地亚哥分校的海洋学家共同创建。自2006年以来,该数据集通过 Imaging FlowCytobot (IFCB) 在马萨诸塞州葡萄园海岸观测站 (MVCO) 收集了超过7000万份样本,精选出超过340万份专家标注的图像,涵盖70个分类。该数据集为细粒度视觉识别提供了一个大规模的基准,对浮游生物分类研究产生了重要影响。
当前挑战
WHOI-Plankton数据集在构建和应用过程中面临的挑战主要包括:首先,由于数据量庞大,手动分类变得不切实际;其次,标注任务本身具有难度,因为相关分类的空间广阔,类内差异大,类间相似度高;此外,尽管存在自动化分类方法,但其准确性通常低于人类专家。研究者在数据集中选择了三种分类方法进行对比,但发现即使是表现最好的方法,对罕见类别的分离效果也有限,这提示未来的研究需要在数据增强和新型卷积神经网络架构开发方面进行更多的探索。
常用场景
经典使用场景
在海洋生态系统中,浮游生物扮演着至关重要的角色。WHOI-Plankton数据集作为大规模精细粒度视觉识别基准数据集,其经典使用场景主要集中于对浮游生物进行分类研究。该数据集包含了超过340万张由专家标注的图像,跨越70个分类,为研究人员提供了一个全面的浮游生物识别与分类的资源库,助力于推动自动化分类技术的发展。
实际应用
在实际应用中,WHOI-Plankton数据集的应用场景广泛,不仅限于学术研究。例如,在海洋环境监测、渔业资源管理、水质评估等领域,该数据集的运用可以帮助相关部门快速准确地识别浮游生物种类与数量,从而有效地进行海洋资源的保护与管理。
衍生相关工作
基于WHOI-Plankton数据集,已经衍生出了一系列相关的研究工作。这些工作不仅包括对现有分类方法的改进,如随机森林、卷积神经网络等,还涉及对浮游生物生态学特性的深入分析,以及开发新的深度学习架构来提高分类性能,进一步推动了海洋生态学领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Pubmed

Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述,该字典由 500 个唯一词组成。

OpenDataLab 收录

China Health and Retirement Longitudinal Study

中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)是一个全国性的、具有代表性的老年人调查项目,旨在收集有关中国45岁及以上人群的健康、经济和社会状况的数据。该数据集包括个人和家庭层面的信息,涵盖健康状况、医疗使用、经济状况、社会支持等多个方面。

charls.pku.edu.cn 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS)

Timeseries data from \'Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS)\' (gov_noaa_awc_kfks)cdm_data_type = TimeSeriesVARIABLES:time (seconds since 1970-01-01T00:00:00Z)latitude (degrees_north)longitude (degrees_east)z (Altitude, m)dew_point_temperature (Dew Point, degree_Celsius)dew_point_temperature_qc_agg (Dew Point QARTOD Aggregate Quality Flag)dew_point_temperature_qc_tests (Dew Point QARTOD Individual Tests)air_temperature (degree_Celsius)air_temperature_qc_agg (Air Temperature QARTOD Aggregate Quality Flag)air_temperature_qc_tests (Air Temperature QARTOD Individual Tests)visibility_in_air (Visibility, m)visibility_in_air_qc_agg (Visibility QARTOD Aggregate Quality Flag)visibility_in_air_qc_tests (Visibility QARTOD Individual Tests)wind_speed_of_gust (Wind Gust, m.s-1)wind_speed_of_gust_qc_agg (Wind Gust QARTOD Aggregate Quality Flag)wind_speed_of_gust_qc_tests (Wind Gust QARTOD Individual Tests)wind_speed (m.s-1)wind_speed_qc_agg (Wind Speed QARTOD Aggregate Quality Flag)wind_speed_qc_tests (Wind Speed QARTOD Individual Tests)wind_from_direction (degrees)wind_from_direction_qc_agg (Wind From Direction QARTOD Aggregate Quality Flag)wind_from_direction_qc_tests (Wind From Direction QARTOD Individual Tests)station (Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS))

ERDDAP 收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录