five

MikeTrizna/bee_specimens

收藏
Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MikeTrizna/bee_specimens
下载链接
链接失效反馈
官方服务:
资源简介:
USNM大黄蜂数据集是一个自然历史数据集,包含73,497个Apidae科大黄蜂标本的单个图像和发生数据。发生数据包括物种分类、采集日期和地点等元数据,符合Darwin Core数据标准。数据集覆盖全球范围,但仅限于史密森尼USNM收藏的标本。数据集的目标是数字化史密森尼国家昆虫收藏中的大黄蜂标本,以便用于进化生物学、生态学和气候变化等研究。
提供机构:
MikeTrizna
原始信息汇总

数据集卡片 for Bee_Specimens

数据集概述

USNM 熊蜂数据集是一个自然历史数据集,包含 73,497 种熊蜂标本的家庭 Apidae 的单个侧面或背面视图图像和包含出现数据的制表符分隔值文件。出现数据包括物种分类、采集日期和地点/位置以及其他符合达尔文核心数据标准(https://dwc.tdwg.org)的元数据。11,421 个标本未鉴定到物种,这些标本包括 Bombus sp. 或 Xylocopa sp.。大多数标本(55,301 个)的采集地点/位置已进行地理参考。该数据集是全球范围的,但仅限于史密森尼 USNM 收藏中的标本。

语言

英语

数据实例

一个典型的数据点包括单个熊蜂标本的标本元数据和图像信息。

数据集中的一个示例如下:

json { occurrenceID: http://n2t.net/ark:/65665/30042e2d8-669d-4520-b456-e3c64203eff8, catalogNumber: USNMENT01732649, recordedBy: R. Craig, year: 1949, month: 4, day: 13, country: United States, stateProvince: California, county: Fresno, locality: Auberry, decimalLatitude: 37.0808, decimalLongitude: -119.485, identifiedBy: "OBrien, L. R.", scientificName: Xylocopa (Notoxylocopa) tabaniformis orpifex, genus: Xylocopa, subgenus: Notoxylocopa, specificEpithet: tabaniformis, infraspecificEpithet: orpifex, scientificNameAuthorship: Smith, accessURI: https://ids.si.edu/ids/deliveryService?id=NMNH-USNMENT01732649, PixelXDimension: 2000, PixelYDimension: 1212 }

数据字段

标本元数据字段符合达尔文核心数据标准,详细信息请参见:https://dwc.tdwg.org。图像元数据字段符合视听核心数据标准,详细信息请参见:https://ac.tdwg.org/。

数据集特征

  • occurrenceID: 字符串
  • catalogNumber: 字符串
  • recordedBy: 字符串
  • year: 整数
  • month: 整数
  • day: 整数
  • country: 字符串
  • stateProvince: 字符串
  • county: 字符串
  • locality: 字符串
  • decimalLatitude: 浮点数
  • decimalLongitude: 浮点数
  • identifiedBy: 字符串
  • scientificName: 字符串
  • genus: 字符串
  • subgenus: 字符串
  • specificEpithet: 字符串
  • infraspecificEpithet: 字符串
  • scientificNameAuthorship: 字符串
  • PixelXDimension: 浮点数
  • PixelYDimension: 浮点数
  • accessURI: 字符串

数据分割

  • train: 26732760 字节,73387 个样本

数据集大小

  • 下载大小: 7117791 字节
  • 数据集大小: 26732760 字节

配置

  • default:
    • train: data/train-*

数据集策展理由

该数据集代表了美国国家昆虫收藏的一部分。美国国家昆虫收藏(USNM)起源于 1885 年美国农业部收藏的 138,000 个标本的捐赠。这些标本成为世界上最大和最重要的可访问昆虫收藏之一的基础,由史密森尼学会、系统昆虫学实验室(农业研究服务,美国农业部)和沃尔特里德生物系统学单位(沃尔特里德陆军研究所)的联合工作人员照顾,共有超过 3300 万个标本。这些标本在数字化项目中与数字化项目办公室合作进行了图像化。目标是数字化收藏中的每个 Bombus 标本。

初始数据收集和规范化

熊蜂标本收集时间跨度为 150 年(最早的标本日期为 1807 年,最近的标本日期为 2020 年)。这些标本由许多不同的个人研究人员在不同时间收集和鉴定。大约 49,000 个标本的初始图像于 2014 年由一个专门的团队在一个快速捕捉项目中拍摄,另外约 25,000 个标本的图像于 2018 年拍摄。包含地点/位置、采集日期、采集者和鉴定者信息的标签从昆虫针上移除。出现数据从标签上由在线志愿者和专业转录服务转录到达尔文核心字段中。经过 NMNH 工作人员对转录数据的质量控制后,它们被导入机构数据库(EMu)。

NMNH 标本数据通过安装的集成发布工具包(IPT,https://collections.nmnh.si.edu/ipt/)每周导出到全球生物多样性信息设施(GBIF)。在 EMu 和 GBIF 中也会进行一些数据转换,以满足它们的标准。

注释

标本出现数据在达尔文核心字段中。

注释过程

出现数据从标签上由在线志愿者和专业转录服务转录到达尔文核心字段中。

注释者

原始采集者和鉴定者是来自史密森尼和其他机构的昆虫学家和研究人员。采集者可能不是熊蜂专家。对于数据转录,在线志愿者和专业转录服务工作者。转录者的群体数据未知。

个人和敏感信息

数据集包含采集者和鉴定者的姓名。

数据集的社会影响

数字化自然历史收藏有可能用于进化生物学、生态学和气候变化等多样化的研究应用。

数据集包含美国濒危物种名单上的物种记录:Bombus affinis、Bombus franklini 和 Bombus terricola。

一些地点/位置名称可能对土著社区造成伤害,因为它们不敏感或带有种族主义色彩。

偏见讨论

基于这些数据的物种地理范围估计可能不完整。有许多原因可能导致采集者更频繁地从某些地区而不是其他地区采集,包括他们自己的分类兴趣、与收藏机构的接近性、通过道路的可访问性、获得特定区域许可的能力或出于地缘政治原因。

该数据集中大多数标本来自北美。

大多数标本预计是雌性,因为熊蜂是社会性昆虫,更常见的是雌性蜜蜂。

其他已知限制

与所有自然历史收藏数据一样,存在一些元数据可能不准确或不一致的潜在问题,因为它们是在过去 150 年中收集和记录的。史密森尼工作人员在发现这些错误时会纠正它们,但所呈现的数据集是时间上的一个快照。

物种鉴定可能不准确或不是基于最新的分类。

采集者姓名可能不一致(例如,同一个人的姓名可能以不同方式书写)。对于女性的姓名,历史上通常记录为 Mrs. <配偶的姓名>,可能只出现配偶的姓名。

地点数据可能使用不再使用的老地名。

日期有时可能由原始采集者不一致地记录或可能不完整(没有月份/日期信息)。

对于从巴西收集的标本,标本图像不包括在数据集中。

对于濒危物种,地点数据不包括在数据集中。

数据集策展人

史密森尼国家自然历史博物馆,昆虫学系。

Jessica Bird(昆虫学系数据经理)是数据集的主要联系人。

许可信息

公共领域,Creative Commons CC0。

引用信息

Orrell T, Informatics Office (2023). NMNH Extant Specimen Records (USNM, US). Version 1.72. National Museum of Natural History, Smithsonian Institution. Occurrence dataset. https://collections.nmnh.si.edu/ipt/resource?r=nmnh_extant_dwc-a&v=1.72

贡献

感谢 NMNH 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作