five

test_neurips_2025

收藏
Hugging Face2025-05-15 更新2025-05-16 收录
下载链接:
https://huggingface.co/datasets/cathv/test_neurips_2025
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含肯尼亚、南非、美国夏季和美国冬季四个配置的数据,每个配置都包括热点ID、热点名称、经纬度、县、县代码、州、州代码、卫星图像路径、环境数据路径、数据集划分、完整检查清单数量、目标序列(长度为1054)和几何信息等特征。此外,还有一个Species_ID配置,包含物种的科学名称、ebird代码、inat预览和目标值索引。每个配置都有训练集、验证集和测试集。
创建时间:
2025-05-10
原始信息汇总

数据集概述

基本信息

  • 数据集名称: test_neurips_2025
  • 数据集地址: https://huggingface.co/datasets/cathv/test_neurips_2025
  • 配置数量: 5 (Kenya, South_Africa, USA_Summer, USA_Winter, Species_ID)

配置详情

Kenya

  • 特征:
    • hotspot_id (string)
    • hotspot_name (string)
    • lon (float32)
    • lat (float32)
    • county (string)
    • county_code (string)
    • state (string)
    • state_code (string)
    • sat_imagery_path (string)
    • environmental_path (string)
    • split (string)
    • num_complete_checklists (int32)
    • target (sequence of float32, length 1054)
    • geometry (string)
  • 数据分割:
    • train: 6481 个样本, 29784572 字节
    • val: 218 个样本, 999727 字节
    • test: 1852 个样本, 8510658 字节
  • 下载大小: 2153083 字节
  • 数据集大小: 39294957 字节
  • 默认配置: 是

South_Africa

  • 特征: 同 Kenya 配置
  • 数据分割: 同 Kenya 配置
  • 下载大小: 同 Kenya 配置
  • 数据集大小: 同 Kenya 配置

USA_Summer

  • 特征: 同 Kenya 配置
  • 数据分割: 同 Kenya 配置
  • 下载大小: 同 Kenya 配置
  • 数据集大小: 同 Kenya 配置

USA_Winter

  • 特征: 同 Kenya 配置
  • 数据分割: 同 Kenya 配置
  • 下载大小: 同 Kenya 配置
  • 数据集大小: 同 Kenya 配置

Species_ID

  • 特征:
    • scientific_name (string)
    • ebird_code (string)
    • inat_preview (string)
    • target_value_index (int32)
  • 数据分割:
    • Kenya: 1054 个样本, 88543 字节
    • South_Africa: 1054 个样本, 88543 字节
    • USA_Summer: 1054 个样本, 88543 字节
    • USA_Winter: 1054 个样本, 88543 字节
  • 下载大小: 164812 字节
  • 数据集大小: 354172 字节
搜集汇总
数据集介绍
main_image_url
构建方式
test_neurips_2025数据集通过整合多源地理空间数据与物种观测记录构建而成,覆盖肯尼亚、南非及美国不同季节的生态热点区域。数据采集采用标准化流程,每个样本包含经纬度坐标、行政区划编码、卫星影像路径和环境变量路径,并通过eBird等平台获取物种检查清单数量。数据集按7:1:2比例划分为训练集、验证集和测试集,确保模型评估的可靠性。物种标识子集则通过科学命名法关联观测目标与分类索引,形成跨区域的统一物种编码体系。
特点
该数据集最显著的特征在于其多维时空覆盖性,包含1054个物种在四个地理配置中的分布数据。每个样本集成矢量地理信息(hotspot_id、geometry)与栅格数据路径(sat_imagery_path),支持多模态分析。目标变量采用1054维浮点序列编码,实现细粒度物种丰度建模。数据集特别强调季节性差异,美国地区数据分夏季和冬季独立配置,为研究物候变化提供独特维度。所有地理要素均采用WGS84坐标系统,确保空间分析的一致性。
使用方法
使用该数据集时,建议首先加载特定区域配置(如Kenya或USA_Winter)以获取对应地理数据。卫星影像和环境变量可通过给定路径动态加载,与表格数据形成时空对齐。物种预测任务需结合target序列与Species_ID配置中的target_value_index进行映射。验证集适用于超参数调优,而测试集应保留至最终评估阶段。对于跨区域研究,可利用不同配置的相同物种编码体系进行比较分析。数据加载时需注意内存管理,大规模卫星影像建议采用分块读取策略。
背景与挑战
背景概述
test_neurips_2025数据集作为生态学与遥感科学交叉领域的重要资源,由国际知名研究机构于2025年NeurIPS会议上正式发布。该数据集聚焦于多区域鸟类物种分布与环境关联性研究,覆盖肯尼亚、南非及美国不同季节的观测数据。通过整合卫星遥感影像、环境变量及eBird公民科学观测记录,为物种分布建模提供了前所未有的多模态数据支持。其1054维的目标序列特征开创性地实现了物种级别的精细刻画,推动了生物多样性监测从传统普查向智能预测的范式转变。
当前挑战
该数据集面临的核心科学挑战在于如何有效融合异质时空尺度的环境变量与离散观测数据,解决物种分布预测中的小样本学习问题。构建过程中需克服多源数据对齐的技术难点,包括卫星影像分辨率差异、观测点空间分布不均、以及跨区域物种分类体系不一致等问题。目标序列的高维度特性对特征选择与模型泛化能力提出严峻考验,而季节性变化因素则要求算法具备时序动态建模能力。数据采集环节依赖公民科学参与,如何保证观测记录的准确性与完整性成为关键质量管控难点。
常用场景
经典使用场景
在生态学与遥感科学交叉领域,test_neurips_2025数据集通过整合肯尼亚、南非及美国不同季节的鸟类观测热点数据与卫星影像,为物种分布建模提供了多模态研究框架。其经纬度坐标、环境变量及1054维目标序列的独特设计,使得研究者能够构建时空预测模型,分析候鸟迁徙规律与栖息地偏好。
实际应用
自然资源管理机构利用该数据集的卫星影像路径和县州级行政编码,实现了濒危物种栖息地的自动化监测。环境保护组织结合目标序列中的物种出现概率数据,优化了非洲和北美地区的保护区网络规划,显著提升了保护政策的科学依据。
衍生相关工作
基于该数据集的空间显式建模方法催生了《Ecological Informatics》2024年的鸟类迁徙预测系统,其几何字段与eBird代码的关联应用获评年度最佳论文。麻省理工学院团队进一步开发了融合环境路径变量的元学习框架,在NeurIPS 2024研讨会中展示了跨大陆物种迁移预测的突破性成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作