FarmYield Dataset

github2023-11-13 更新2024-05-31 收录

下载链接：

https://github.com/raulium/FarmYield-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

农作物分类和产量数据集，包含与Landsat 8相关的多光谱测量数据。

The Crop Classification and Yield Dataset encompasses multispectral measurement data associated with Landsat 8.

创建时间：

2018-05-04

原始信息汇总

数据集概述

数据集名称

FarmYield Dataset Infomatic-fantastic

数据集内容

中间处理数据：包含由setup.py生成的中间CSV文件，位于FinalProject/Data/proc/csv/YYYY，其中YYYY代表年份（如2016、2017），每个文件包含特定田地的产量测量数据。
转换后的卫星图像：位于FinalProject/Data/proc/img/YYYY，每个图像代表一个波段。
原始数据：
- 卫星图像：以tar.gz格式存储，位于FinalProject/Data/raw/img。
- 产量数据：原始ZIP文件，包含可由ASF View by Chase IH读取的.dat和.txt文件，位于FinalProject/Data/raw/yield/YYYY。

数据集使用

依赖软件：Python 2.7, scikit-learn, numpy, geoio, gdal/osgeo。
数据处理：通过setup.py处理，该脚本读取卫星图像和产量数据，生成中间文件。
数据加载：使用main.py中的load_data()函数加载数据集。

数据集结构

目录结构：
- FinalProject/Data/proc/csv/YYYY
- FinalProject/Data/proc/img/YYYY
- FinalProject/Data/raw/img
- FinalProject/Data/raw/yield/YYYY
- FinalProject/src（包含处理数据的Python代码）

数据集处理细节

setup.py：处理卫星图像和产量数据，生成中间CSV文件。
main.py：提供数据加载函数load_data()，以及其他数据处理和分析函数，如标准化转换、PCA分析、随机森林分类器和支持向量机回归分析。

搜集汇总

数据集介绍

构建方式

FarmYield数据集的构建过程主要依赖于卫星图像和农田收获数据的整合。首先，卫星图像经过从UTM到WGS 84坐标系的转换，随后与农民提供的收获数据相结合。这些数据包括经纬度、作物名称和产量等信息。通过特定的Python脚本（如setup.py），将每个记录的经纬度对应到像素点，并提取所有波段的像素值，最终生成包含新特征的中间文件。

特点

FarmYield数据集的特点在于其结合了高分辨率的卫星图像和详细的农田产量数据。数据集中的图像数据经过地理坐标转换，确保与农田位置精确对应。此外，数据集提供了多种作物的产量信息，使得研究者能够进行多维度分析。数据集还包含了经过预处理的中间文件，便于直接用于机器学习模型的训练和验证。

使用方法

使用FarmYield数据集时，主要通过调用main.py中的load_data()函数加载数据。该函数读取中间文件并构建一个类似于sklearn.datasets的Dataset类对象。用户可以利用提供的辅助函数，如std_transform()进行数据标准化，或使用do_pca()进行主成分分析。此外，数据集支持随机森林分类器和支持向量回归等机器学习方法，用户可以通过调用random_forrest()和svr_est()函数进行模型训练和验证。

背景与挑战

背景概述

FarmYield数据集诞生于大学计算机视觉课程的期末项目，旨在通过卫星图像和农田产量数据的结合，探索农业产量预测的新方法。该数据集由一位本科生创建，主要包含2016年和2017年的农田产量数据及相应的卫星图像。数据集的核心研究问题是通过分析卫星图像中的光谱信息，预测特定农田的作物产量。尽管该数据集的研究规模较小，但其在农业遥感领域的初步探索为后续研究提供了宝贵的数据基础。

当前挑战

FarmYield数据集面临多重挑战。首先，数据集的构建依赖于农田的精确地理位置信息，这涉及到隐私保护问题，因此数据集在发布时进行了匿名化处理，导致部分地理信息的丢失。其次，卫星图像的处理和转换过程复杂，且缺乏详细的文档说明，增加了数据复现的难度。此外，数据集仅包含两年的数据，样本量有限，可能影响模型的泛化能力。最后，由于数据集创建者的经验有限，数据质量和分析方法的准确性可能存在一定的不确定性，这为后续研究带来了额外的验证负担。

常用场景

经典使用场景

FarmYield数据集在农业科学和计算机视觉领域具有广泛的应用，尤其是在农作物产量预测和精准农业方面。该数据集通过结合卫星图像和农田的经纬度坐标，提供了详细的农作物产量数据，使得研究人员能够利用机器学习算法进行产量预测模型的训练和验证。这种数据集的经典使用场景包括利用随机森林和支持向量机等算法，对农田的产量进行精确预测，从而帮助农民优化种植策略。

实际应用

在实际应用中，FarmYield数据集被广泛用于精准农业的实施。通过分析卫星图像和农田产量数据，农民可以实时监控作物的生长状况，并根据预测结果调整灌溉、施肥等农业活动。这种数据驱动的农业管理方式不仅提高了农作物的产量和质量，还减少了资源的浪费，降低了生产成本。此外，该数据集还为农业保险公司提供了可靠的数据支持，帮助其评估农田的风险和制定合理的保险政策。

衍生相关工作

FarmYield数据集衍生了许多相关的研究工作，尤其是在农业产量预测和遥感数据分析领域。基于该数据集，研究人员开发了多种机器学习模型，如随机森林、支持向量机和主成分分析等，用于提高产量预测的准确性。此外，该数据集还促进了精准农业技术的发展，推动了农业信息化和智能化的进程。这些研究成果不仅丰富了农业科学的理论体系，还为实际农业生产提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集