five

Precision Liming Soil Datasets (LimeSoDa)

收藏
arXiv2025-02-27 更新2025-03-04 收录
下载链接:
https://github.com/JonasSchmidinger/LimeSoDa
下载链接
链接失效反馈
官方服务:
资源简介:
LimeSoDa是一个包含31个田间到农场规模的数据集,每个数据集都包含三种目标土壤属性:土壤有机物或土壤有机碳、粘土含量和pH值,以及一组特征。这些特征是特定于数据集的,是通过光学光谱学、近场和远程土壤传感获得的。所有数据集都已调整为表格格式,可直接用于建模。LimeSoDa是由研究人员和研究机构自愿提交的数据集构建的,这些数据集之前大多没有公开。

LimeSoDa is a collection of 31 field-to-farm scale datasets. Each dataset includes three target soil properties: soil organic matter or soil organic carbon, clay content, and pH value, along with a set of dataset-specific features acquired via optical spectroscopy, near-field and remote soil sensing. All datasets have been standardized to tabular format and are directly available for modeling. LimeSoDa is compiled from datasets voluntarily submitted by researchers and research institutions, most of which had not been publicly disclosed prior to their inclusion in this collection.
提供机构:
多个研究机构合作
创建时间:
2025-02-27
搜集汇总
数据集介绍
main_image_url
构建方式
LimeSoDa数据集的构建旨在解决数字土壤制图(DSM)中基准测试研究的数据限制问题。该数据集由31个来自不同国家的田间和农场规模的子数据集组成,每个子数据集都包含三个目标土壤属性:土壤有机质或土壤有机碳、粘土含量和pH值。此外,还包含一组特征,这些特征由光学光谱、近程和远程土壤传感技术获得。数据集被统一为表格格式,方便建模使用。为了确保数据集的可用性和可重复性,所有数据集都在Zenodo上开放获取,并提供了一个R和Python数据集包,方便用户下载和使用。
特点
LimeSoDa数据集的特点在于其多样性、开放性和实用性。多样性体现在数据集涵盖了来自不同国家和地区的土壤数据,以及多种土壤传感技术获取的特征。开放性体现在数据集在Zenodo上免费提供,并采用CC BY-SA 4.0许可,允许用户在代码库中实现并分享。实用性体现在数据集已经过预处理,包括将光谱数据重采样到不同的波带和光谱分辨率,并提供了预定的交叉验证折叠,以便于比较和未来的基准测试。此外,数据集还包含详细的元数据文档,帮助用户更好地理解和使用数据。
使用方法
LimeSoDa数据集的使用方法包括以下步骤:首先,用户可以从Zenodo或GitHub上下载数据集和相应的R或Python数据包。然后,用户可以根据自己的需求对数据集进行预处理,例如特征选择、降维等。之后,用户可以使用所选的机器学习算法对数据集进行建模,例如随机森林、支持向量回归、分类增强和多元线性回归等。最后,用户可以使用交叉验证或其他验证方法评估模型的性能,并与其他研究进行比较。LimeSoDa数据集的开放性和多样性使其成为DSM领域基准测试和模型开发的重要资源。
背景与挑战
背景概述
Precision Liming Soil Datasets (LimeSoDa) 是一个由多个国际研究机构共同创建的开源数据集,旨在为数字土壤制图(DSM)领域的机器学习回归器提供基准测试。该数据集由31个来自不同国家的田间和农场规模的数据集组成,涵盖了土壤有机质或土壤有机碳、粘土含量和pH值等三个目标土壤属性,以及通过光学光谱、近端和远程土壤传感获得的一系列特征。LimeSoDa 数据集的创建为DSM领域的研究人员提供了一个重要的资源,有助于提高统计方法的开发和评估,并为环境管理和农业生产提供更准确的土壤图。
当前挑战
LimeSoDa 数据集面临的主要挑战包括:1) 领域问题挑战:DSM领域存在着多种统计方法,但确定给定背景下最佳方法仍然具有挑战性。LimeSoDa 数据集的创建旨在通过比较多个数据集上的方法性能来解决这一问题,以揭示现有方法的优缺点。2) 构建挑战:在构建过程中,LimeSoDa 数据集面临着数据收集、特征提取和预处理等方面的挑战。为了确保数据集的质量和可用性,研究人员需要进行大量的数据清洗和格式化工作,并确保数据集的开放性和可重复性。此外,由于数据集包含了来自不同国家和地区的土壤样本,还需要解决数据标准化和跨数据集学习的问题。
常用场景
经典使用场景
Precision Liming Soil Datasets (LimeSoDa) is a valuable resource for benchmarking machine learning regressors in the field of digital soil mapping (DSM). It allows researchers to compare the predictive performance of various algorithms across multiple datasets, thus providing insights into the strengths and limitations of each method. The dataset collection includes 31 field- and farm-scale datasets from various countries, each containing three target soil properties: soil organic matter or soil organic carbon, clay content, and pH, alongside a set of features obtained by optical spectroscopy, proximal- and remote soil sensing.
解决学术问题
LimeSoDa addresses the limitations of existing DSM studies that often rely on a single dataset with restricted access, leading to incomplete and potentially misleading conclusions. By providing a collection of open-access datasets, LimeSoDa enables more robust and comprehensive benchmarking studies. The dataset collection has the potential to improve the development and evaluation of statistical methods in DSM, contributing to a better understanding of the performance of machine learning algorithms in various soil mapping contexts.
衍生相关工作
LimeSoDa has the potential to inspire and support further research in the field of pedometrics. The dataset collection can be used to develop and evaluate new machine learning algorithms specifically tailored for DSM, as well as to investigate the impact of different feature selection strategies and preprocessing techniques on predictive performance. Furthermore, LimeSoDa can serve as a valuable resource for teaching and learning in the field of soil science and data science, providing students with real-world data to work with and analyze.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作