andyvhuynh/NatureMultiView
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/andyvhuynh/NatureMultiView
下载链接
链接失效反馈官方服务:
资源简介:
Nature Multi-View (NMV)数据集是一个多视角数据集,包含超过300万对地面和航空图像,覆盖了加利福尼亚州的6000多种本地和引入的植物物种。数据集的特点包括长尾分布、地理偏差和多对一的图像配对。数据集分为训练集、验证集和测试集,训练集进一步细分为全训练集和不同比例的标注训练集。地面图像来源于iNaturalist开放数据,航空图像来源于2018年国家农业影像计划(NAIP)。数据集的特征包括观测的唯一标识符、经纬度坐标、分类信息、图像日期、许可证类型等。
The Nature Multi-View (NMV) dataset is a multi-view dataset containing over 3 million ground-level and aerial image pairs from over 1.75 million citizen science observations for over 6,000 native and introduced plant species across California. The dataset exhibits characteristics such as long-tail distribution, geographic bias, and many-to-one pairing. It is divided into training, validation, and test sets, with the training set further divided into subsets of varying labeled proportions. The ground-level images are sourced from iNaturalist open data, while the aerial images are from the 2018 National Agriculture Imagery Program (NAIP). The dataset features include unique identifiers for observations, geographical coordinates, classification information, image dates, observer details, and more.
提供机构:
andyvhuynh
原始信息汇总
Nature Multi-View (NMV) Dataset Datacard
数据集概述
- 名称: Nature Multi-View (NMV) Dataset
- 规模: 超过300万对地面和空中图像,来自超过175万次公民科学观察,涵盖加州6000多种本地和外来植物物种。
数据集特点与挑战
- 长尾分布: 数据集呈现出自然界中常见的长尾分布,适合作为机器学习应用的真实基准。
- 地理偏差: 数据集反映了公民科学数据的地理偏差,更多观察来自人口密集和访问频繁的地区,如城市和国家级公园。
- 多对一配对: 数据集中存在多个地面图像与同一空中图像配对的情况。
数据集划分
- 训练集:
- 完整训练集: 1,755,602次观察,3,307,025张图像
- 标记训练集:
- 20%: 334,383次观察,390,908张图像
- 5%: 93,708次观察,97,727张图像
- 1%: 19,371次观察,19,545张图像
- 0.25%: 4,878次观察,4,886张图像
- 验证集: 150,555次观察,279,114张图像
- 测试集: 182,618次观察,334,887张图像
数据获取
- 地面图像:
- 来源: iNaturalist开放数据(AWS)
- 过滤条件:
- 维管植物
- 加州州界内
- 2011年1月1日至2023年9月27日期间的观察
- 地理不确定性 < 120米
- 研究级或需要ID(排除休闲观察)
- 有对应的遥感图像
- 与生物气候变量重叠
- 空中图像:
- 来源: 2018年国家农业影像计划(NAIP)
- 图像属性: RGB-红外图像,256x256像素,60厘米/像素分辨率
- 图像中心: 基于iNaturalist观察的纬度和经度
特征描述
- observation_uuid (string): 观察的唯一标识符
- latitude (float32): 观察的纬度坐标
- longitude (float32): 观察的经度坐标
- positional_accuracy (int64): 地理位置的准确性
- taxon_id (int64): 观察物种的分类标识符
- quality_grade (string): 观察的质量等级(如研究级、需要ID)
- gl_image_date (string): 地面图像的拍摄日期
- ancestry (string): 观察物种的分类祖先
- rank (string): 观察物种的分类等级(如物种、属)
- name (string): 观察物种的科学名称
- gl_inat_id (string): 地面观察的iNaturalist标识符
- gl_photo_id (int64): 地面照片的标识符
- license (string): 图像共享的许可证类型(如CC-BY)
- observer_id (string): 记录观察的观察者标识符
- rs_classification (bool): 指示是否存在遥感分类数据
- ecoregion (string): 观察所在生态区
- supervised (bool): 指示观察是否属于监督数据集
- rs_image_date (string): 遥感(空中)图像的拍摄日期
- finetune_0.25percent (bool): 指示观察是否包含在0.25%微调子集中
- finetune_0.5percent (bool): 指示观察是否包含在0.5%微调子集中
- finetune_1.0percent (bool): 指示观察是否包含在1.0%微调子集中
- finetune_2.5percent (bool): 指示观察是否包含在2.5%微调子集中
- finetune_5.0percent (bool): 指示观察是否包含在5.0%微调子集中
- finetune_10.0percent (bool): 指示观察是否包含在10.0%微调子集中
- finetune_20.0percent (bool): 指示观察是否包含在20.0%微调子集中
- finetune_100.0percent (bool): 指示观察是否包含在100.0%微调子集中
- gl_image (image): 与观察相关的地面图像
- rs_image (sequence of sequences of int64): 与观察相关的空中图像数据,表示为像素值序列



