five

phenology

收藏
Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/findableai/phenology
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自挪威278个观测站1928年至1952年的物候数据,数据以手写表格的形式记录了不同植物的开花期、鸟类的迁徙时间等物候现象。这些数据可以帮助研究人员了解气候变化对自然界物候期的影响。
创建时间:
2025-05-02
原始信息汇总

数据集卡片:Phenology

摘要

  • 数据集包含运行GitHub仓库https://github.com/findable-no/phenology-data代码所需的数据。
  • 文件tables.tgz包含文章中的原始扫描表格页面。

数据来源

  • 原始文章:A. Lauscher, F. Lauscher, and H. Printz, Die Phänologie Norwegens, Teil II. Phänologischce Mittelwerte für 260 Orte, Skr. Det Norske Videnskaps-Akademi Oslo. I. Mat.-Naturv. Kl. No.l 1959, 1-176, 1959。
  • 数据收集者:Henrik Printz,挪威奥斯陆大学植物学家。

数据内容

  • 数据时间范围:1928年至1952年。
  • 观测站点数量:278个。
  • 数据类型:
    • 4个元数据字段(黄色标记)。
    • 292个数据字段(蓝色标记)。
  • 总字段数:83,956个,其中33,905个非空白字段。
  • 数据格式:手写表格,包含植物、鸟类和农业现象的物候观测数据。

数据处理

  • 包含Jupyter笔记本用于:
    1. 从每个表格中提取特定单元格图像。
    2. 使用视觉大语言模型(vLLM)初步读取这些单元格。
    3. 微调vLLM以提高数据读取精度。
    4. 制作挪威数据变异性的地理图示例。
  • 提供Pandas数据框和Excel表格,包含经过人工验证的数据。

数据用途

  • 作为气候变化的间接观测基线,用于比较当前条件。
  • 特别关注具有物候可塑性的植物(如款冬)作为气候实验室。

免责声明

  • 数据以“现状”提供,不保证任何用途的适用性。
  • Findable AS及作者不对数据的正确性负责,也不对使用或解释数据的任何后果负责。

元数据

  • 策划者: Lars Aurdal, Eivind Kjosbakken, Findable AS (https://www.findable.ai)。
  • 语言: 英语、挪威语、德语。
  • 许可证: MIT。
  • 数据集作者: Lars Aurdal, Findable AS (https://www.findable.ai)。
  • 联系方式: Lars Aurdal, Findable AS (https://www.findable.ai)。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自挪威植物学家Henrik Printz于1928年至1952年间在挪威建立的广泛物候观测网络,涵盖了278个观测站点的数据。原始数据以德文手写表格形式发表于1959年的学术文献中,表格记录了包括植物开花、鸟类迁徙等多种物候现象。数据集构建过程中,研究人员首先对原始文献中的表格页面进行扫描存档,随后通过视觉大语言模型(vLLM)技术对表格单元格进行数字化提取和初步识别,最终经过人工校验形成结构化数据。
特点
作为跨越近一个世纪的物候观测记录,该数据集具有独特的历史价值和科学意义。其核心特点体现在:数据覆盖挪威全境260个地点,包含83,956个观测字段,其中33,905个有效数据点;记录内容涵盖植物物候、鸟类迁徙等多元生物指标;时间跨度恰好处于人类活动对气候影响相对较低的时期,为当代气候变化研究提供了珍贵基线数据。数据集采用标准化处理,提供Pandas数据框和Excel表格两种格式,并附有完整的观测指标解释文档。
使用方法
使用者需首先克隆关联的GitHub代码库,将原始表格扫描文件解压至指定目录。通过提供的Jupyter Notebook可完成数据预处理流程:phenology_preprocess_1.ipynb实现原始表格解析,后续Notebook提供vLLM模型微调指导。数据集支持多种分析应用,包括物候指标的空间可视化(通过地理绘图Notebook实现)、气候变化相关性研究等。为保障学术严谨性,任何衍生成果需保留对原始文献的引用,并建议注明数据数字化工作的贡献者。数据处理过程中需注意部分观测点的数据缺失情况,建议结合附带的元数据说明进行解读。
背景与挑战
背景概述
物候学作为研究生物生命周期周期性事件及其受气候与生境因素影响的古老学科,其科学价值在气候变化研究中日益凸显。挪威植物学家Henrik Printz于1928年在奥斯陆大学主导建立了覆盖全国的观测网络,系统记录了植物开花、鸟类迁徙等物候现象。1959年,他与合作者Lauscher等人发表了《挪威物候学第二部分:260个地点的物候平均值》,该文献包含1928-1952年间278个观测站的手写数据表格,这些数据成为研究前工业化时代气候基线的重要时间胶囊。数据集由Findable AS团队数字化整理,采用视觉大语言模型技术实现历史表格的自动化提取与校验,为当代气候变化比较研究提供了珍贵基准。
当前挑战
该数据集面临双重挑战:在领域层面,物候观测数据的时间跨度与空间覆盖要求极高精度,而历史记录的德语手写体表格存在大量非结构化数据(83,956个字段中仅33,905个有效),需解决跨语言、跨时代的数据标准化难题;在构建层面,原始文献的纸质表格数字化涉及图像分割、手写字符识别等技术障碍,特别是处理20世纪中叶特殊符号与缺失值时,传统OCR技术准确率不足,需结合vLLM模型微调与人工验证。此外,观测站点分布不均与部分年份数据缺失,对建立连续时空序列分析模型提出了挑战。
常用场景
经典使用场景
在物候学研究领域,phenology数据集为分析生物周期性事件与气候变化的关联提供了珍贵的历史基准。该数据集系统地记录了1928至1952年间挪威278个观测站的植物开花、鸟类迁徙等物候相位数据,其核心价值在于通过传统手写表格的数字化转换,使研究者能够量化比较工业革命前后自然生态系统的响应模式。数据集特别适用于构建时间序列模型,以评估气候变暖对高纬度地区物候周期的具体影响。
解决学术问题
该数据集有效解决了环境史学与气候生态学交叉领域的若干关键问题。通过标准化处理历史手稿中的物候观测记录,研究者得以建立前工业化时代的生态基线数据,这对验证当代物候提前现象的科学假设具有决定性意义。数据中关于荠菜等表型可塑性植物的开花时间记录,为量化季节性温度变化对植物物候的驱动机制提供了不可替代的实证材料。
衍生相关工作
基于该数据集衍生的经典研究包括北欧物候变化趋势分析框架的建立,其中Findable AS开发的视觉语言模型(vLLM)自动识别技术为历史文献数字化设立了新标准。相关成果推动了《全球物候观测网络》数据标准的修订,并启发了后续如欧洲PEP725项目对多源物候数据的整合方法。数据集预处理流程更成为生态数据考古学领域的技术范本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作