five

Fields of The World (FTW)|机器学习数据集|农业数据集

收藏
github2024-09-25 更新2024-09-26 收录
机器学习
农业
下载链接:
https://github.com/fieldsoftheworld/ftw-baselines
下载链接
链接失效反馈
资源简介:
Fields of The World (FTW) 是一个大规模基准数据集,旨在推动机器学习模型在农业田地边界实例分割方面的发展。该数据集支持对准确和可扩展的田地边界数据的需求,这对于全球农业监测、土地利用评估和环境研究至关重要。
创建时间:
2024-09-16
原始信息汇总

Fields of The World (FTW) - Baselines Codebase

概述

Fields of The World (FTW) 是一个大规模基准数据集,旨在推动农业田地边界实例分割的机器学习模型的发展。该数据集支持全球农业监测、土地利用评估和环境研究中对准确和可扩展的田地边界数据的需要。

目录结构

Fields-of-The-World ├── .flake8 ├── .gitignore ├── CHANGELOGS.md ├── LICENSE ├── README.md ├── assets ├── configs │ └── example_config.yaml ├── environment.yml ├── inference.py ├── notebooks │ └── visualize_dataset.ipynb ├── pyproject.toml └── src ├── ftw │ ├── init.py │ ├── datamodules.py │ ├── datasets.py │ ├── metrics.py │ ├── trainers.py │ └── utils.py └── ftw_cli ├── init.py ├── cli.py ├── download.py ├── model.py └── unpack.py

系统设置

创建 Conda/Mamba 环境

bash mamba env create -f env.yml mamba activate ftw

验证 PyTorch 安装和 CUDA 可用性

bash python -c "import torch; print(torch.cuda.is_available())"

设置 FTW CLI

bash pip install -e .

数据集设置

下载并解压压缩版本

bash ftw download --help ftw unpack --help

数据集可视化

使用 visualize_dataset.ipynb 探索数据集。

实验准备

在运行实验之前,确保在 configs 目录中创建配置文件,并更新 datasets.py 中的 root 参数以反映正确的数据集路径。

实验

训练

从头开始训练模型

bash ftw model fit --config configs/example_config.yaml

从检查点恢复训练

bash ftw model fit --config configs/example_config.yaml --ckpt_path <Checkpoint File Path>

测试

bash ftw model test --gpu 0 --checkpoint_fn logs/path_to_model/checkpoints/last.ckpt --countries denmark finland --postprocess --output_fn results.csv

并行实验

使用 run_experiments.py 脚本在多个 GPU 上并行运行实验。

贡献

欢迎贡献!请 fork 仓库,进行更改并提交拉取请求。

许可证

该代码库在 MIT 许可证下发布。详见 LICENSE 文件。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Fields of The World (FTW) 数据集的构建旨在为机器学习模型提供大规模的实例分割基准,以识别农业田地的边界。该数据集通过整合全球范围内的卫星图像,精确标注了农业田地的边界,从而为全球农业监测、土地利用评估和环境研究提供了必要的数据支持。数据集的构建过程包括图像采集、边界标注、数据清洗和预处理等步骤,确保了数据的高质量和一致性。
特点
FTW 数据集的主要特点在于其大规模和多样性。数据集涵盖了多个国家和地区的农业田地,提供了丰富的地理和气候条件下的田地边界数据。此外,数据集支持多种机器学习任务,包括实例分割和语义分割,适用于不同的模型训练和评估需求。数据集还提供了预处理工具和可视化功能,便于用户进行数据探索和模型开发。
使用方法
使用 FTW 数据集的第一步是通过 FTW CLI 工具下载和解压数据集。用户可以选择下载特定国家或地区的数据,也可以下载整个数据集。下载完成后,用户可以使用提供的代码库进行数据预处理、模型训练和评估。数据集支持 PyTorch 和 CUDA,用户可以根据需要选择使用 GPU 或 CPU 进行计算。此外,数据集还提供了预训练模型和推理工具,用户可以直接使用这些工具进行模型推理和结果可视化。
背景与挑战
背景概述
Fields of The World (FTW) 数据集是一个大规模的基准数据集,旨在推动机器学习模型在农业田地边界实例分割方面的发展。该数据集由 Kerner Lab 创建,主要研究人员致力于提供准确且可扩展的田地边界数据,这对于全球农业监测、土地利用评估和环境研究至关重要。FTW 数据集的开发始于对现有数据集在处理复杂农业场景时表现不足的认知,其目标是填补这一空白,为相关领域的研究提供强有力的支持。
当前挑战
FTW 数据集在构建过程中面临多项挑战。首先,数据集需要覆盖全球多个国家和地区的农业田地,这要求数据的广泛性和多样性。其次,田地边界的实例分割任务本身具有较高的复杂性,涉及多季节、多光谱图像的处理,以及对不同作物生长周期的精确捕捉。此外,数据集的构建还需考虑数据隐私和版权问题,确保所使用的数据符合开放许可标准。这些挑战共同构成了 FTW 数据集在实际应用中的主要障碍。
常用场景
经典使用场景
Fields of The World (FTW) 数据集的经典使用场景主要集中在农业领域的实例分割任务中。该数据集通过提供大规模的农业田地边界标注,支持机器学习模型在精确和可扩展的田地边界数据上的训练与评估。研究人员和开发者可以利用此数据集进行模型训练,以实现对卫星图像中农业田地的自动识别和分割,从而为全球农业监测、土地使用评估和环境研究提供关键数据支持。
解决学术问题
FTW 数据集解决了农业领域中长期存在的田地边界识别难题,特别是在大规模和多样化的地理环境中。通过提供高质量的标注数据,该数据集显著提升了机器学习模型在复杂环境下的性能,推动了实例分割技术在农业监测中的应用。这不仅有助于提高农业管理的效率,还为全球粮食安全和环境保护提供了科学依据。
衍生相关工作
基于 FTW 数据集,许多相关研究工作得以展开,包括但不限于改进实例分割算法、开发新的农业监测工具和优化土地使用模型。例如,一些研究团队利用该数据集训练深度学习模型,实现了对农田边界的精确识别,进一步推动了农业自动化技术的发展。此外,FTW 数据集还促进了与其他地理信息系统(GIS)数据的集成,为跨领域的研究提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

O*NET

O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。

www.onetonline.org 收录

SMSSpamCollection

该数据集包含数千条标记为spam或ham(非垃圾邮件)的短信。它反映了日常通信的典型情况,并包含常见的垃圾邮件词汇,为评估文本分类模型提供了现实基础。

github 收录

World Values Survey (WVS)

世界价值观调查(World Values Survey, WVS)是一个跨国的、长期的学术调查项目,旨在研究全球不同国家和地区的社会、政治和文化价值观的变化。该调查涵盖了从1981年至今的多个波次,每次调查都包含一系列关于个人价值观、社会规范、政治态度、宗教信仰、家庭观念等方面的问题。数据集包括了来自全球100多个国家和地区的调查结果,提供了丰富的社会科学研究数据。

www.worldvaluessurvey.org 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录