yosemite-birds-taxonomy
收藏Hugging Face2026-05-04 更新2026-05-05 收录
下载链接:
https://huggingface.co/datasets/kerembaskaya/yosemite-birds-taxonomy
下载链接
链接失效反馈官方服务:
资源简介:
Yosemite国家公园鸟类分类数据集是一个公开领域的物种清单,包含262种鸟类,通过iNaturalist API与现代Clements分类法进行了匹配。数据集包括物种名称、科学名称、iNat分类ID、NPS丰度等级(Tier 1=常见至Tier 4=偶见)等信息。数据来源于Yosemite国家公园鸟类清单v4.3(由David Gaines于1977年编制,NPS工作人员修订至2014年),属于美国公共领域(17 USC § 105)。数据集适用于生物多样性研究、鸟类分类学等任务,提供了详细的字段说明,包括科学名称、通用名称、iNat分类ID等。数据集还包含原始NPS-2014的英文和科学名称,以及亚种处理注释。
The Yosemite National Park Bird Classification Dataset is a public domain species checklist containing 262 bird species, matched via the iNaturalist API with the modern Clements taxonomy. The dataset includes species names, scientific names, iNat taxonomy IDs, NPS abundance levels (Tier 1=common to Tier 4=occasional), and other information. The data originates from the Yosemite National Park Bird Checklist v4.3 (compiled by David Gaines in 1977 and revised by NPS staff until 2014) and is part of the U.S. public domain (17 USC § 105). The dataset is suitable for biodiversity research, bird taxonomy tasks, and provides detailed field descriptions, including scientific names, common names, iNat taxonomy IDs, etc. The dataset also includes the original NPS-2014 English and scientific names, as well as subspecies handling notes.
创建时间:
2026-05-03
原始信息汇总
Yosemite National Park Bird Taxonomy 数据集概述
基本信息
- 数据集名称:Yosemite National Park Bird Taxonomy
- 许可证:CC0-1.0(公共领域)
- 语言:英语
- 标签:taxonomy、biodiversity、bird、yosemite、nps
- 数据集规模:少于1,000条记录
- 发布者:Kerem Baskaya
- 发布年份:2026年
数据集内容
该数据集包含262种鸟类物种,来源于优胜美地国家公园的公共领域物种清单,并通过iNaturalist API与现代Clements分类法进行了对齐。每个物种均具有丰度等级分类(第1级=常见,第4级=偶见)。
数据来源
- 基础数据:优胜美地国家公园鸟类清单v4.3(David Gaines 1977年编制,NPS工作人员修订至2014年)
- 原始PDF文件:Yosemite Bird Checklist
- NPS作品属于美国公共领域(依据17 USC § 105)
- 物种名称已与当前Clements分类法(iNaturalist使用的标准鸟类学清单)对齐
数据模式(Schema)
| 列名 | 类型 | 描述 |
|---|---|---|
class_id |
int | 项目内部连续ID(0-261) |
scientific_name |
str | 当前Clements科学名称 |
inat_taxon_id |
int | iNaturalist分类单元ID(持久连接键) |
common_name |
str | 当前Clements英文名称 |
tier |
int (1-4) | NPS丰度等级(1=常见,4=偶见) |
nps_common_name |
str | 原始NPS-2014英文名称(用于叙述) |
nps_scientific_name |
str | 原始NPS-2014科学名称 |
nps_subspecies_note |
str | 亚种处理说明(合并情况) |
supervised |
bool | 该物种是否有≥30张训练图像 |
重要说明
- 这是一个纯分类学数据集,包含物种名称、科学名称、iNat分类单元ID和NPS丰度等级
- 基于此分类法构建的图像分类器数据集使用了不可再分发的iNat图像,未公开发布
- 项目仓库中提供了构建脚本供参考
- 数据集通过git提交进行更新维护,详见项目的METHODOLOGY.md决策日志
引用信息
bibtex @misc{baskaya2026yosemitebirdstaxonomy, author = {Baskaya, Kerem}, title = {Yosemite National Park Bird Taxonomy}, year = {2026}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/kerembaskaya/yosemite-birds-taxonomy}}, }
搜集汇总
数据集介绍

构建方式
该数据集的构建源于对约塞米蒂国家公园鸟类名录的数字化与现代化整合。原始数据源自NPS发布的v4.3版鸟类清单,该清单由David Gaines于1977年编纂,并经NPS工作人员持续修订至2014年。为与现代分类学体系接轨,所有物种名称均通过iNaturalist API与最新的Clements分类法进行比对和校准,并为每个物种分配了唯一的iNaturalist分类单元ID作为下游调用的持久化连接键。最终数据集收录了262个物种,并为每个物种标注了由NPS定义的丰度等级(Tier 1至Tier 4,分别对应常见至偶见),同时保留了原始清单中的俗名、学名及亚种处理备注信息。
特点
该数据集的核心价值在于其权威性与结构化的分类学数据。作为公共领域作品,它遵循美国法典第17篇第105条,具有无版权限制的开放性。数据集提供了完整的物种清单,包括科学名称、英文通用名称以及iNaturalist分类单元ID,并创新性地引入了NPS丰度等级划分,为物种出现频率提供了量化参考。此外,数据集还包含了是否拥有充足训练图像(≥30张)的监督学习标记字段,为后续构建图像分类器提供了明确的筛选依据,体现了从基础分类数据到机器学习应用的无缝衔接设计。
使用方法
该数据集主要作为下游鸟类图像识别任务的分类学基表使用。用户可以通过数据集中的`inat_taxon_id`字段,作为与iNaturalist API交互的持久化连接键,获取相关物种的观测图像数据。同时,`supervised`布尔字段可帮助用户快速筛选出拥有充足训练样本的物种,用于构建监督学习模型。由于明确定义了分类ID、物种名称及丰度等级,该数据集也适用于生态学研究中的物种多样性分析、物种分布建模以及NPS内部的生物监测数据融合。需要注意的是,基于此分类学构建的图像分类器所使用的图片来源于iNaturalist且不可再分发,但本数据集本身可直接用于任何非商业或商业目的的分类学查询与映射工作。
背景与挑战
背景概述
生物多样性研究与生态监测的蓬勃发展,亟需标准化的物种清单作为基石。由Kerem Baskaya于2026年发布的Yosemite National Park Bird Taxonomy数据集,依托美国国家公园管理局(NPS)自1977年起编纂、历经2014年修订的官方鸟类名录,并借助iNaturalist API将物种名称统一至现代Clements分类学标准。该核心研究问题在于构建一个公共领域内、细粒度且可关联的鸟类分类体系。其影响力体现在为后续基于图像的物种种群识别与生态建模提供了权威的分类学锚点,推动了保护生物学与计算机视觉的交叉融合。
当前挑战
该数据集所应对的领域挑战在于:为大规模自动化鸟类识别任务奠定分类学基础,从而克服传统人工普查耗时耗力、覆盖不全的局限,支持基于视觉数据的丰度评估与物种分布动态监控。构建过程中的挑战则包括:一是将历时近四十年的原始NPS名录(包含同物异名、分类变动及亚种不确定性)精准映射至当前的Clements分类框架;二是通过iNaturalist API进行调合时,需处理因分类学修订导致的持续性标识符变更;三是丰度分级标准(Tier 1-4)需要与生态学实地观测的稀疏性和季节性波动相协调,以确保下游训练数据标注的可靠性。
常用场景
经典使用场景
在生态学与生物多样性研究领域,标准化的物种名录数据集是开展各项分析工作的基石。yosemite-birds-taxonomy 数据集整理了约塞米蒂国家公园内262种鸟类的分类学信息,涵盖科学名称、通用名称、iNaturalist分类标识符以及国家公园管理局划分的丰度等级。该数据集最经典的用途是作为鸟类物种识别与分类系统的基础训练标签集,研究者可依据其提供的类目ID和丰度分层,构建面向特定生态区域的图像分类模型或声音识别模型,从而实现对园区内鸟类种群的高效自动化监测。
衍生相关工作
围绕该数据集已衍生出一系列值得关注的学术工作。最直接的延伸是依托其分类体系构建的图像分类器数据集,虽然因原始影像受非再分发许可限制而未能公开发布,但构建脚本的透明公开为其他生态区域提供了可复制的技术范式。此外,该数据集还催生了关于国家公园长期物种清单维护与审计方法的研究,其附带的METHODOLOGY.md决策日志与版本控制机制(通过git提交记录丰度等级调整与新物种增加)树立了生态数据持续更新的实践范本,推动了生物多样性信息学领域关于数据溯源与版本管理的深入讨论。
数据集最近研究
最新研究方向
该数据集聚焦于优山美地国家公园鸟类分类学清单的数字化与现代化整合,其核心价值在于将历史悠久且处于公共领域的公园鸟类名录(1977年编制、2014年修订)与当代Clements分类标准及iNaturalist生态数据库进行精准对齐。当前前沿研究方向主要集中于利用该结构化分类数据(包含262个物种及NPS丰度等级)作为上游基础框架,支撑下游鸟类图像分类模型的开发与训练。值得注意的是,由于依赖不可再分发的iNaturalist图像,相关图像数据集成品并未公开发布,研究重点转向如何通过开放的分类学元数据(如物种ID与丰度层级)促进跨机构生物多样性监测研究,并为国家公园生态数字化管理提供可复现的审计链与版本控制方法论。
以上内容由遇见数据集搜集并总结生成



