five

MikeTrizna/bees

收藏
Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MikeTrizna/bees
下载链接
链接失效反馈
官方服务:
资源简介:
USNM大黄蜂数据集是一个自然历史数据集,包含了73,497个Apidae科大黄蜂标本的单一图像和发生数据。这些数据符合Darwin Core数据标准,包括标本的分类、采集日期和地点等元数据。大多数标本的采集地点已经进行了地理参考。数据集的范围是全球性的,但仅限于史密森尼USNM收藏的标本。数据集还包括了图像元数据,符合Audiovisual Core数据标准。数据集的收集和数字化过程涉及多个步骤,包括标本的采集、图像的拍摄、数据的转录和质量控制。数据集的使用可能涉及进化生物学、生态学和气候变化等研究领域。

The USNM Bumble Bee Dataset is a natural history dataset containing 73,497 single images and occurrence data for bumble bee specimens belonging to the Apidae family. These data comply with the Darwin Core data standard, encompassing metadata such as specimen taxonomy, collection dates and locations. Most of the specimen collection locations have been georeferenced. The dataset has a global scope but is restricted to specimens curated in the Smithsonian USNM collection. The dataset also includes image metadata that adheres to the Audiovisual Core data standard. The collection and digitization workflow of the dataset comprises multiple steps, including specimen collection, image capture, data transcription and quality control. Potential applications of this dataset cover research fields such as evolutionary biology, ecology and climate change research.
提供机构:
MikeTrizna
原始信息汇总

数据集卡片 - 蜜蜂数据集

数据集概述

美国国家自然历史博物馆(USNM)的熊蜂数据集是一个自然历史数据集,包含73,497个熊蜂标本的家庭Apidae的单个侧面或背面的图像以及包含出现数据的制表符分隔值文件。出现数据包括物种分类、采集日期和地点/位置以及其他符合达尔文核心数据标准(https://dwc.tdwg.org)的元数据。11,421个标本未鉴定到物种,这些标本被列为Bombus sp.或Xylocopa sp.。大多数标本(55,301个)的采集地点/位置已经地理参考。该数据集是全球范围的,但仅限于史密森尼USNM收藏中的标本。

语言

英语

数据实例

一个典型的数据点包含单个熊蜂标本的标本元数据和图像信息。

数据集中的一个示例如下:

json { "occurrenceID": "http://n2t.net/ark:/65665/30042e2d8-669d-4520-b456-e3c64203eff8", "catalogNumber": "USNMENT01732649", "recordedBy": "R. Craig", "year": "1949", "month": "4", "day": "13", "country": "United States", "stateProvince": "California", "county": "Fresno", "locality": "Auberry", "decimalLatitude": "37.0808", "decimalLongitude": "-119.485", "identifiedBy": "OBrien, L. R.", "scientificName": "Xylocopa (Notoxylocopa) tabaniformis orpifex", "genus": "Xylocopa", "subgenus": "Notoxylocopa", "specificEpithet": "tabaniformis", "infraspecificEpithet": "orpifex", "scientificNameAuthorship": "Smith", "accessURI": "https://ids.si.edu/ids/deliveryService?id=NMNH-USNMENT01732649", "PixelXDimension": 2000, "PixelYDimension": 1212 }

数据字段

标本元数据字段符合达尔文核心数据标准,详细信息见:https://dwc.tdwg.org。图像元数据字段符合视听核心数据标准,详细信息见:https://ac.tdwg.org/。

数据集大小

  • 训练集:73,387个样本,3,672,202,733.82字节
  • 下载大小:3,659,907,058字节
  • 数据集大小:3,672,202,733.82字节

配置

  • 配置名称:default
  • 数据文件:
    • 分割:训练
    • 路径:data/train-*

数据集管理者

史密森尼国家自然历史博物馆,昆虫学系。

Jessica Bird(昆虫学系数据经理)是数据集的主要联系人。

许可信息

公共领域,Creative Commons CC0。

引用信息

Orrell T, Informatics Office (2023). NMNH Extant Specimen Records (USNM, US). Version 1.72. National Museum of Natural History, Smithsonian Institution. Occurrence dataset. https://collections.nmnh.si.edu/ipt/resource?r=nmnh_extant_dwc-a&v=1.72

搜集汇总
数据集介绍
main_image_url
构建方式
MikeTrizna/bees数据集的构建是基于美国国家自然历史博物馆的藏品,通过数字化项目对 Bombus 属的标本进行影像捕捉和元数据转录,遵循 Darwin Core 数据标准进行字段整理,最终形成了包含73,497个标本的图像及其相应的 occurrence 数据。
特点
该数据集的特点在于其详尽的标本信息,包括地理位置、采集时间、分类学信息等,覆盖全球范围,但主要集中于北美洲。数据集采用公共领域许可,允许用户自由使用和共享。此外,数据集在物种保护、生态和进化生物学研究中具有重要的社会价值和科学贡献。
使用方法
使用该数据集时,用户可以通过 HuggingFace 提供的平台下载完整的训练集,其中包括每个标本的图像和对应的元数据。用户需遵循 Creative Commons CC0 许可,确保在使用数据时尊重数据提供方的知识产权和隐私政策。
背景与挑战
背景概述
MikeTrizna/bees数据集,全名为美国国家博物馆(USNM)大黄蜂数据集,是一项涉及大黄蜂种类、采集信息、地理分布等自然历史信息的宝贵资源。该数据集由美国国家自然历史博物馆的昆虫学部门负责维护,其起源可追溯至1885年,是美国最大的昆虫学收藏之一。数据集包含了73,497个大黄蜂样本的图像及其对应的采集信息,遵循达尔文核心数据标准。此数据集不仅展现了物种分类、采集时间和地点等元数据,也通过数字化项目,为进化生物学、生态学以及气候变化等研究提供了丰富的数据支撑,对相关领域的研究产生了深远影响。
当前挑战
数据集构建过程中遇到的挑战包括:确保采集信息的准确性和完整性,因为数据跨越150年,涉及多个研究人员;数据标准化和清洗,以符合达尔文核心数据标准;以及图像的质量控制。此外,数据集面临的挑战还包括:地理分布数据的可能不完整性,物种识别的准确性问题,以及数据中可能存在的性别和地域偏见。特别是,对于列为濒危物种的大黄蜂,其地点信息被省略,以保护这些敏感物种。
常用场景
经典使用场景
在生物学与生态学研究领域,MikeTrizna/bees数据集的经典使用场景主要在于对 Bombus 属蜜蜂的分类学、生态地理分布以及物种演变的研究。该数据集提供了一个丰富的自然历史记录,通过对73,497个标本的图像和元数据进行综合分析,研究人员能够深入理解蜜蜂物种多样性及其与环境因素的相互关系。
实际应用
在实践应用层面,MikeTrizna/bees数据集被广泛应用于生物多样性保护、生态规划以及农业授粉策略等领域。其详尽的地理和时间标注使得研究人员能够追踪和分析蜜蜂种群的动态变化,进而为农业可持续发展和生态系统的健康管理提供科学依据。
衍生相关工作
基于MikeTrizna/bees数据集的研究衍生出了一系列相关工作,包括对蜜蜂种群遗传结构的研究、对栖息地变化影响的分析,以及利用机器学习技术对蜜蜂图像进行自动识别和分类等,这些工作进一步拓展了蜜蜂研究领域的前沿科学问题和技术方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作