five

batis_benchmark_2025

收藏
Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/cathv/batis_benchmark_2025
下载链接
链接失效反馈
官方服务:
资源简介:
BATIS Benchmark数据集用于评估改进物种分布模型的贝叶斯方法。数据集包括肯尼亚、南非、美国夏季和美国冬季四个配置,每个配置包含训练、验证和测试数据。数据集结构包括图像、环境协变量和目标向量等信息。数据集以CC BY-NC 4.0许可证发布。
创建时间:
2025-05-10
原始信息汇总

BATIS: Benchmarking Bayesian Approaches for Improving Species Distribution Models 数据集概述

数据集基本信息

数据集配置

数据集包含以下四个配置:

  • Kenya: 用于预测肯尼亚鸟类物种分布的数据
  • South Africa: 用于预测南非鸟类物种分布的数据
  • USA-Winter: 用于预测美国冬季鸟类物种分布的数据
  • USA-Summer: 用于预测美国夏季鸟类物种分布的数据

每个配置包含以下分割:

  • train
  • val
  • test

数据集结构

/batis_benchmark_2025/ Kenya/ images.tar.gz environmental.tar.gz targets.tar.gz train_filtered.csv test_filtered.csv valid_filtered.csv South_Africa/ images.tar.gz environmental.tar.gz targets.tar.gz train_filtered.csv test_filtered.csv valid_filtered.csv USA_Winter/ images/ images_{aa} ... images_{ad} environmental.tar.gz targets.tar.gz train_filtered.csv test_filtered.csv valid_filtered.csv USA_Summer/ images/ images_{aa} ... images_{af} images.tar.gz environmental.tar.gz targets.tar.gz train_filtered.csv test_filtered.csv valid_filtered.csv Species_ID/ species_list_kenya.csv species_list_south_africa.csv species_list_usa.csv

数据字段

  • hotspot_id: 热点唯一ID
  • lon: 热点经度坐标
  • latitude: 热点纬度坐标
  • num_complete_checklists: 该热点收集的完整清单数量
  • bio_1bio_19: 从WorldClim模型提取的环境协变量值
  • split: 热点所属分割(trainvalidtest

数据统计

Region Date Range Number of Checklists Number of Hotspots Number of Species Species List
Kenya (KE) 2010-01-01 to 2023-12-31 44,852 8,551 1,054 Avibase
South Africa (ZA) 2018-01-01 to 2024-06-17 498,867 6,643 755 BirdLife
USA-Winter (US-W) 2022-12-01 to 2023-01-31 3,673,742 45,882 670 ABA 1-2
USA-Summer (US-S) 2022-06-01 to 2022-07-31 3,920,846 98,443 670 ABA 1-2

注意事项

  • 清单数据不包含在当前存储库中
  • 如需下载清单数据,需向eBird团队提交访问请求
搜集汇总
数据集介绍
main_image_url
构建方式
在物种分布建模研究领域,BATIS基准数据集通过整合多源生态观测数据构建而成。该数据集涵盖肯尼亚、南非及美国冬夏两季四个地理区域,每个区域的数据均包含训练集、验证集和测试集的标准划分。原始数据源自eBird公民科学平台的鸟类观测记录,并经过严格筛选与预处理流程,确保数据质量符合科学研究标准。环境变量提取自WorldClim模型的19个生物气候指标,形成标准化的特征矩阵。
特点
该数据集具有显著的空间异质性与时间动态特征,覆盖从热带到温带的不同生态区域。数据维度包含地理坐标、环境协变量和物种出现频率等多模态信息,其中美国区域样本量达数百万条,展现出大规模生态数据的典型特征。每个观测点均标注完整的经纬度坐标与生物气候变量,并采用标准化归档格式存储图像、环境和目标向量三类数据,支持高效的分布式处理。
使用方法
研究者可通过HuggingFace数据集的标准化接口加载不同区域和划分的数据子集。使用load_dataset函数指定区域名称与数据划分即可获取对应数据,例如加载肯尼亚训练集或南非验证集。数据文件采用CSV格式存储元数据,实际特征数据则封装于压缩包内,需通过hotspot_id进行关联索引。为保障数据合规使用,需同步遵守CC BY-NC 4.0许可协议及eBird系列数据使用条款。
背景与挑战
背景概述
物种分布模型作为生态学与生物地理学的核心研究工具,其发展历程始终与数据驱动方法紧密相连。2025年发布的BATIS基准数据集由Catherine Villeneuve等学者联合构建,旨在系统评估贝叶斯方法在物种分布建模中的性能。该数据集涵盖肯尼亚、南非及美国冬夏两季的鸟类观测数据,整合了来自eBird公民科学平台的数十万份标准化清单,结合世界气候组织提供的19种环境协变量,构建了多区域多季节的生态预测基准框架。
当前挑战
在物种分布建模领域,传统方法常受限于样本偏差与空间自相关性问题,而BATIS数据集通过融合多源异构数据试图突破这一瓶颈。其构建过程面临三重挑战:公民科学数据固有的观测偏差需通过统计方法校正;跨洲际生态区环境变量的标准化处理要求极高;受eBird数据使用条款限制,原始观测清单需经过复杂的数据脱敏与聚合处理,这为模型可复现性带来技术壁垒。
常用场景
经典使用场景
在生态建模领域,BATIS基准数据集为物种分布模型提供了标准化评估框架。该数据集通过整合肯尼亚、南非及美国不同季节的鸟类观测数据,结合环境协变量与地理空间信息,构建了多区域多季节的对比实验平台。研究人员可基于该数据集训练贝叶斯统计模型,评估物种出现概率与环境因子间的复杂关系,推动生态位建模方法的创新与发展。
解决学术问题
该数据集有效解决了传统物种分布模型面临的空间外推能力不足与不确定性量化困难等核心问题。通过提供标准化训练验证分割与多尺度环境变量,支持研究者系统评估模型在未知地理区域的泛化性能。其精心设计的实验框架为比较不同贝叶斯方法在生态建模中的表现提供了科学基准,显著提升了物种分布预测的可靠性与可解释性。
衍生相关工作
该数据集已催生多项基于深度贝叶斯学习的生态建模研究,包括时空高斯过程与神经网络的融合架构。相关衍生工作拓展了集成学习在物种分布预测中的应用,开发出能够同时处理图像特征与环境变量的多模态模型。这些进展显著提升了模型对稀有物种的检测灵敏度,为构建下一代智能生态监测系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作