five

Fields of The World (FTW)|农业监测数据集|实例分割数据集

收藏
github2024-09-28 更新2024-10-21 收录
农业监测
实例分割
下载链接:
https://github.com/fieldsoftheworld/ftw-datasets-list
下载链接
链接失效反馈
资源简介:
Fields of The World (FTW) 是一个综合基准数据集,旨在促进用于农业田地边界实例分割的机器学习模型的发展。该数据集旨在满足全球农业监测和评估对准确和可扩展田地边界数据的日益增长的需求。

Fields of The World (FTW) is a comprehensive benchmark dataset designed to facilitate the development of machine learning models for agricultural field boundary instance segmentation. This dataset aims to address the growing demand for accurate and scalable field boundary data in global agricultural monitoring and assessment.
创建时间:
2024-09-25
原始信息汇总

Fields of The World (FTW) 数据集概述

数据集基本信息

  • 版本: v1.0.0
  • 目的: 用于增强农业地块边界实例分割的机器学习模型开发,支持全球农业监测与评估。
  • 覆盖范围: 欧洲、非洲、亚洲和南美洲的24个国家。
  • 数据规模: 约160万地块边界,超过7万样本。

关键特性

  1. 多类别分割:
    • 实例分割掩码:标识单个地块。
    • 语义分割掩码:
      • 二分类:背景和地块。
      • 三分类:背景、地块和边界。
  2. 光谱丰富性: 包含Sentinel-2卫星图像的RGB和近红外(NIR)波段。
  3. 时间丰富性: 多时相影像,捕捉不同生长阶段。
  4. 数据划分: 训练集(80%)、验证集(10%)和测试集(10%),采用分块随机划分策略避免空间自相关。

数据结构

Fields of The World ├── README.md ├── [国家名称](如austria) │ ├── label_masks │ │ ├── instance │ │ ├── semantic_2class │ │ └── semantic_3class │ ├── s2_images │ │ ├── window_a │ │ └── window_b │ ├── chips_[国家名称].parquet │ └── data_config_[国家名称].json ├── [国家名称].zip └── checksum.md5

国家数据统计

国家 有效年份 地块数量 芯片数 训练集 验证集 测试集 数据许可
奥地利 2021 196101 6686 5304 637 745 CC-BY-4.0
比利时 2021 63431 1941 1554 189 198 无限制
巴西 2020 1854 1607 1289 130 188 CC-BY-4.0
柬埔寨 2021 318088 344 274 36 34 CC-BY-4.0
克罗地亚 2023 157481 3482 2778 351 353 开放数据
丹麦 2021 37677 3560 2868 360 332 CC0-1.0
爱沙尼亚 2021 26695 6713 5348 681 684 CC-3.0
芬兰 2021 57323 5665 4527 550 588 CC-BY-4.0
法国 2020 55342 3744 2988 360 396 开放许可
德国 2018/2019 4598 686 306 30 350 DL-DE/BY-2-0
印度 2016 10013 2002* 1281 300 399 CC-BY-4.0
肯尼亚 2022 874 391 316 20 55 GPL-2.0-or-later
拉脱维亚 2021 44964 6938 5529 668 741 CC-BY-NC-4.0
立陶宛 2021 61424 5258 4208 522 528 非商业用途
卢森堡 2022 29018 808 643 81 84 CC0-1.0
荷兰 2022 43169 3879 3110 381 388 CC0-1.0
葡萄牙 2021 5040 86 64 12 10 CC-BY-NC-4.0
卢旺达 2021 1532 70 57 6 7 CC-BY-4.0
斯洛伐克 2021 14242 4073 3275 390 408 CC0-1.0
斯洛文尼亚 2021 67488 2177 1733 216 228 CC-BY-4.0
南非 2018 6568 747 590 72 85 CC-BY-NC-SA-4.0
西班牙 2020 258465 2440 2019 202 219 CC-BY-4.0
瑞典 2021 39718 4760 3802 442 516 无限制
越南 2021 120913 288 229 36 23 CC-BY-4.0

*注:印度有2002个芯片,其中22个标记为“无”划分,实际使用1980个芯片。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Fields of The World (FTW) 数据集的构建基于全球范围内的多源遥感数据,涵盖了欧洲、非洲、亚洲和南美洲的24个国家。该数据集通过整合Sentinel-2卫星的多日期、多光谱图像,以及详细的实例和语义分割掩码,实现了对农业地块边界的精确分割。数据集的构建过程中,首先参考了美国农业部的作物日历,以确定图像采集的时间窗口,随后通过选择云量最少且对比度最佳的图像,确保了数据的质量和一致性。此外,数据集采用了分块随机分割策略,将大块区域分割为1536x1536平方米的小块,并按80%、10%、10%的比例分配给训练、验证和测试集,以防止空间自相关性导致的泄漏问题。
使用方法
FTW 数据集的使用方法相对直观,用户可以通过下载包含国家文件夹的压缩包来获取数据。每个国家文件夹内包含标签掩码和图像文件夹,分别存储实例分割和语义分割掩码,以及多日期、多光谱的Sentinel-2图像。用户可以根据需要选择不同类别的掩码进行分析。此外,数据集提供了详细的元数据和文档,包括国家、作物类型、数据采集季节和年份等信息,帮助用户更好地理解和利用数据。数据集的训练、验证和测试集已经预先划分,用户可以直接使用这些划分进行模型训练和评估。
背景与挑战
背景概述
Fields of The World (FTW)数据集是一个综合性的基准数据集,旨在推动机器学习模型在农业田地边界实例分割领域的发展。该数据集由Kerner实验室主导,于2021年首次发布,其核心研究问题是如何在全球范围内提供准确且可扩展的田地边界数据,以支持农业监测和评估。FTW数据集覆盖了欧洲、非洲、亚洲和南美洲的24个国家,涵盖了多样化的农业景观,为模型在不同农业实践和田地类型中的泛化能力提供了坚实基础。其庞大的数据规模(约160万块田地边界和超过7万样本)和丰富的多光谱、多时间序列图像数据,使其成为该领域的重要资源,对全球农业监测技术的进步具有深远影响。
当前挑战
尽管FTW数据集在规模和多样性上具有显著优势,但其构建和应用过程中仍面临诸多挑战。首先,数据集的全球覆盖性要求模型必须具备跨地域的适应能力,这对模型的泛化性和鲁棒性提出了高要求。其次,多光谱和多时间序列图像的处理复杂性增加了数据预处理和特征提取的难度。此外,数据集在不同国家和地区的数据质量、分辨率和许可协议的差异,也为数据整合和使用带来了挑战。最后,确保数据集在训练、验证和测试集之间的公平分割,以避免空间自相关性导致的过拟合,是数据集构建中的另一重要难题。
常用场景
经典使用场景
Fields of The World (FTW) 数据集的经典使用场景主要集中在农业领域的实例分割任务。该数据集通过提供全球多个国家和地区的农业地块边界数据,支持开发能够准确识别和分割单个地块的机器学习模型。这些模型不仅能够处理不同农业实践和地块类型,还能在多光谱和多时间点的卫星图像上进行详细分析,从而为农业监测和评估提供强有力的技术支持。
解决学术问题
FTW 数据集解决了农业领域中长期存在的地块边界识别和分割的学术难题。通过提供大规模、多类别和多光谱的实例和语义分割掩码,该数据集显著提升了机器学习模型在复杂农业环境中的泛化能力和精度。这不仅推动了农业遥感技术的进步,还为全球农业监测和评估提供了更为准确和可靠的数据基础。
实际应用
在实际应用中,FTW 数据集被广泛用于农业监测、土地管理和精准农业等领域。例如,通过分析地块边界的变化,可以实时监测农作物的生长状态和健康状况,从而优化农业生产策略。此外,该数据集还可用于土地利用规划和环境评估,帮助政府和农业机构制定更为科学和可持续的农业政策。
数据集最近研究
最新研究方向
在农业监测与评估领域,Fields of The World (FTW) 数据集的最新研究方向主要集中在利用其大规模、多类别的实例和语义分割数据,开发能够跨不同农业实践和田地类型泛化的机器学习模型。研究者们正致力于通过多光谱和多时间点的卫星图像分析,提升模型的时空分辨率,以更精确地识别和分割农田边界。此外,FTW数据集的全球覆盖特性也促使研究者探索如何在不同地理和文化背景下优化模型性能,从而推动全球农业监测技术的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

GenshinVoice

GenshinVoice是一个包含原神游戏中所有语音文件及其对应文字文本的数据集。数据集直接从游戏中提取,包含多种语言版本,用于学习和研究目的。

github 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录

NIH Chest X-rays

Over 112,000 Chest X-ray images from more than 30,000 unique patients

kaggle 收录