five

restor/tcd-nc

收藏
Hugging Face2024-06-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/restor/tcd-nc
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: image_id dtype: int64 - name: image dtype: image - name: height dtype: int16 - name: width dtype: int16 - name: annotation dtype: image - name: oam_id dtype: string - name: license dtype: string - name: biome dtype: int8 - name: crs dtype: string - name: bounds sequence: float32 length: 4 - name: validation_fold dtype: int8 - name: biome_name dtype: string - name: lat dtype: float32 - name: lon dtype: float32 - name: segments dtype: string - name: meta dtype: string - name: coco_annotations dtype: string splits: - name: train num_bytes: 240830437.0508917 num_examples: 237 - name: test num_bytes: 42985219.947257385 num_examples: 35 download_size: 269995300 dataset_size: 283815656.9981491 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* license: cc-by-nc-4.0 task_categories: - image-segmentation pretty_name: OAM-TCD, CC BY-NC images size_categories: - n<1K ---

The dataset includes various features such as image ID, image, height, width, annotation, OAM ID, license, biome, coordinate reference system, bounds, validation fold, biome name, latitude, longitude, segments, meta, and COCO annotations. The dataset is divided into training and testing parts, containing 237 and 35 samples respectively. The download size of the dataset is 269,995,300 bytes, and the dataset size is 283,815,656 bytes. The dataset is licensed under CC BY-NC 4.0, categorized under image segmentation tasks, named as OAM-TCD, CC BY-NC images, and falls under the size category of n<1K.
提供机构:
restor
原始信息汇总

数据集概述

数据集信息

特征

  • image_id: 图像ID,数据类型为 int64
  • image: 图像数据,数据类型为 image
  • height: 图像高度,数据类型为 int16
  • width: 图像宽度,数据类型为 int16
  • annotation: 图像标注,数据类型为 image
  • oam_id: OAM ID,数据类型为 string
  • license: 许可证信息,数据类型为 string
  • biome: 生物群落信息,数据类型为 int8
  • crs: 坐标参考系统,数据类型为 string
  • bounds: 边界信息,数据类型为 float32,长度为4
  • validation_fold: 验证折叠信息,数据类型为 int8
  • biome_name: 生物群落名称,数据类型为 string
  • lat: 纬度,数据类型为 float32
  • lon: 经度,数据类型为 float32
  • segments: 分割信息,数据类型为 string
  • meta: 元数据,数据类型为 string
  • coco_annotations: COCO标注信息,数据类型为 string

数据集分割

  • train: 训练集,包含237个样本,大小为240830437.0508917字节
  • test: 测试集,包含35个样本,大小为42985219.947257385字节

数据集大小

  • 下载大小: 269995300字节
  • 数据集大小: 283815656.9981491字节

配置

  • config_name: default
    • data_files:
      • train: 路径为 data/train-*
      • test: 路径为 data/test-*

许可证

  • license: cc-by-nc-4.0

任务类别

  • task_categories: 图像分割

数据集名称

  • pretty_name: OAM-TCD, CC BY-NC images

数据集规模

  • size_categories: n<1K
搜集汇总
数据集介绍
main_image_url
构建方式
在遥感影像分析领域,OAM-TCD数据集通过精心设计的采集流程构建而成。该数据集主要源自OpenAerialMap平台,遵循CC BY-NC许可协议,筛选了全球不同生物群系的航空与卫星影像。每幅影像均配有精确的地理坐标、坐标系信息及像素级土地覆盖标注,并依据生物群系类型进行分层抽样,确保样本的多样性与代表性。数据预处理环节整合了影像标识、空间边界及COCO格式标注,最终形成包含训练集与测试集的标准化结构。
特点
OAM-TCD数据集在土地覆盖分类任务中展现出鲜明的专业特性。其影像数据涵盖多种生物群系,每个样本均附带高精度的分割标注与丰富元数据,如地理坐标、许可协议及验证折叠标识。数据集规模紧凑,包含272个样本,分为237个训练样本与35个测试样本,适用于小样本学习场景。影像与标注均以图像格式存储,辅以结构化地理信息,支持多模态遥感分析,为生态监测与地理信息系统研究提供了高质量基准。
使用方法
针对土地覆盖分割任务,研究者可便捷地加载OAM-TCD数据集的训练与测试划分。影像与标注可直接用于训练语义分割模型,如U-Net或DeepLab架构,利用附带的生物群系标签进行跨区域泛化验证。数据集中提供的COCO格式标注便于与主流计算机视觉工具链集成,而地理坐标与边界信息则支持空间分析与可视化。用户需注意遵守CC BY-NC许可协议,合理应用于非商业研究场景。
背景与挑战
背景概述
遥感影像语义分割是地理信息科学和计算机视觉交叉领域的关键研究方向,旨在从高分辨率航空或卫星图像中精确提取地物类别信息。OAM-TCD数据集由研究机构restor于近年创建,专注于热带地区的土地覆盖分类任务,其核心研究问题在于解决复杂生态环境下的精细地物识别难题。该数据集通过提供带标注的高质量影像,显著推动了热带区域环境监测、生态评估及可持续发展相关算法的进步,为全球变化研究提供了重要的数据支撑。
当前挑战
OAM-TCD数据集致力于应对热带地区土地覆盖语义分割的独特挑战,该区域植被茂密、地物交错,传统模型易受类间相似性与阴影干扰,导致分割精度下降。在构建过程中,数据采集受限于热带气候的云层覆盖与季节性变化,标注工作则因植被结构的复杂性而耗费大量人力,需依赖领域专家进行精细勾绘。此外,数据的地理分布不均衡与标注一致性维护,进一步增加了数据集构建的难度。
常用场景
经典使用场景
在遥感影像分析领域,TCD-NC数据集以其高分辨率卫星图像与精确标注的语义分割掩码,为土地覆盖分类研究提供了关键资源。该数据集广泛应用于训练深度学习模型,特别是卷积神经网络和Transformer架构,以实现对复杂地表特征的自动识别与分割,如森林、水体、城市建筑及农田等类别。通过其丰富的生物群落标签和地理坐标信息,研究者能够深入探索不同生态环境下的土地覆盖模式,推动遥感图像解译技术的精细化发展。
解决学术问题
TCD-NC数据集有效应对了遥感语义分割中标注数据稀缺、地理多样性不足的挑战。它通过提供全球多生物群落的标注样本,支持了跨区域土地覆盖模型的泛化能力研究,解决了传统方法在异质环境下面临的性能下降问题。该数据集促进了弱监督学习、域自适应等前沿方向的发展,为理解人类活动与自然环境交互提供了数据基础,显著提升了土地覆盖制图的准确性与可扩展性。
衍生相关工作
围绕TCD-NC数据集,学术界衍生了一系列经典研究工作,包括基于U-Net、DeepLab等架构的语义分割模型优化,以及结合多模态数据融合的土地覆盖分类方法。这些工作不仅提升了模型在复杂场景下的分割精度,还推动了自监督预训练、少样本学习等新范式的探索。部分研究进一步利用该数据集的地理元数据,开发了空间上下文增强模型,为全球尺度遥感分析提供了可复现的基准与创新思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作