SustainBench dataset for water quality index

github2021-12-03 更新2024-05-31 收录

下载链接：

https://github.com/anhnguyen132/predict-water-quality

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预测水质，包含街景图像和卫星图像。数据集根据国家进行均匀分割，用于训练、验证和测试。总共有87,938个示例，其中12个国家用于训练集，11个国家用于验证集，10个国家用于测试集。

This dataset is designed for water quality prediction, encompassing both street-view and satellite imagery. It is uniformly partitioned by country for training, validation, and testing purposes. In total, there are 87,938 examples, with 12 countries allocated to the training set, 11 to the validation set, and 10 to the testing set.

创建时间：

2021-10-21

原始信息汇总

数据集概述

数据集来源

本数据集源自SustainBench项目，用于预测水质，使用多模态输入（街景图像和卫星图像）。

数据集处理

忽略无水质指数标签的样本。
由于计算能力和存储限制，模型训练使用了SustainBench数据集的一个子集。

数据集组成

卫星图像数据

每组按国家和年份分组的样本中，抽样100个具有水质指数标签的样本。
SustainBench数据集中水质指数样本总数为87,938。

数据集分割

训练集：包含12个国家（TZ, BF, CM, GH, IA, KM, LS, ML, MW, NG, PH, TG）。
验证集：包含11个国家（BJ, BO, CO, DR）。
测试集：包含10个国家（AM, AO）。
排除7个无水质指数标签的国家（HN, ID, JO, KH, MA, MB, NI）。

街景图像数据

由于每张卫星图像对应0至100张街景图像，导致计算资源迅速超限，因此采样国家较少。

数据集分割

训练集：包含6个国家（CD, MD, ZW, CM, GH, NP）。
验证集：包含2个国家（BJ, BO）。
测试集：包含2个国家（AM, AO）。

聚合模型图像数据

忽略无对应街景图像的卫星图像。
总抽样样本数为1,095。

数据集分割

训练集：包含5个国家（CD, MD, ZW, CM, GH, NP, TJ, BD）。
验证集：包含2个国家（BJ, BO）。
测试集：包含2个国家（AM, AO）。

文件结构

模型文件：aggr_model.py, satellite_customed_cnn.py, satellite_resnet.py, street_model.py，用于训练、评估和运行预测。
特征提取：extract_features，从卫星和街景图像中提取特征。
数据集分割脚本：split_dataset.sh。
街景图像解压缩脚本：unzip_street_images.py。
街景图像预处理脚本：preprocess_street.py。
辅助函数文件：utils.py，用于加载和分割数据集及标签。

搜集汇总

数据集介绍

构建方式

SustainBench水质指数数据集的构建基于多模态输入，包括街景图像和卫星图像。数据集的构建过程中，首先剔除了没有水质指数标签的样本，并根据计算资源和存储限制，从SustainBench数据集中选取了部分样本进行训练。卫星图像数据按国家和年份分组，每组选取100个带有水质指数标签的样本。街景图像数据则按国家进行均匀划分，确保训练、验证和测试集的分布均衡。此外，为了减少计算负担，卫星图像与街景图像的对应关系也被考虑在内，剔除了没有对应街景图像的卫星图像。

特点

该数据集的特点在于其多模态输入的设计，结合了卫星图像和街景图像，能够更全面地反映水质状况。数据集涵盖了多个国家的样本，确保了地理多样性。数据集的划分方式基于国家，确保了训练、验证和测试集之间的独立性。此外，数据集还提供了预处理脚本和模型文件，便于用户快速上手。数据集的总样本量为87,938个，其中卫星图像数据按国家和年份分组，街景图像数据则按国家划分，确保了数据的多样性和代表性。

使用方法

使用该数据集时，用户可以通过提供的模型文件进行训练、评估和预测。数据集提供了预处理脚本，用于解压街景图像、过滤无效标签，并将图像预处理为256x256x3的尺寸。用户还可以使用`extract_features`脚本从卫星和街景图像中提取特征，并将街景图像特征向量与卫星图像特征向量进行拼接。数据集的划分脚本`split_dataset.sh`可以帮助用户按国家划分数据集。通过这些工具，用户可以快速构建和训练模型，进行水质指数的预测。

背景与挑战

背景概述

SustainBench数据集专注于水质指数的预测，旨在通过多模态输入（如街景图像和卫星图像）来评估全球范围内的水质状况。该数据集由SustainLab团队开发，首次发布于2020年，旨在为环境科学和可持续发展领域的研究人员提供一个高质量的数据资源。数据集涵盖了多个国家和年份的水质数据，共计87,938个样本，涵盖了12个训练国家、11个验证国家和10个测试国家。通过结合卫星图像和街景图像，SustainBench为水质监测提供了一种创新的多模态分析方法，推动了环境监测技术的进步。

当前挑战

SustainBench数据集在构建和应用过程中面临多重挑战。首先，水质指数的预测依赖于多模态数据的融合，如何有效整合卫星图像和街景图像的特征成为关键问题。其次，由于计算资源和存储限制，数据集仅选择了部分样本进行训练，可能导致模型泛化能力不足。此外，数据集中存在部分样本缺乏水质指数标签，且街景图像与卫星图像的对应关系不完全一致，这进一步增加了数据处理的复杂性。最后，数据集的国别分布不均，某些国家的样本量较少，可能影响模型在不同地理区域的适用性。这些挑战为研究人员提出了更高的技术要求，同时也为未来改进提供了方向。

常用场景

经典使用场景

SustainBench数据集在水质指数预测领域展现了其独特的价值，特别是在结合街景图像和卫星图像的多模态输入方面。研究者们通常利用该数据集来训练和验证深度学习模型，以预测不同国家和地区的水质指数。通过这种方式，数据集不仅支持了环境科学的研究，还为跨学科合作提供了数据基础。

解决学术问题

该数据集解决了环境监测中水质预测的复杂性问题。通过整合卫星图像和街景图像，研究者能够更准确地评估和预测水质状况，这对于水资源管理和环境保护具有重要意义。此外，数据集的分割策略确保了模型在不同地理区域的泛化能力，从而提高了研究的可靠性和实用性。

衍生相关工作

基于SustainBench数据集，多项研究已经开发出创新的深度学习模型，如结合卷积神经网络（CNN）的多模态融合模型。这些模型不仅提高了水质预测的准确性，还推动了图像处理和机器学习技术在环境科学中的应用。此外，数据集还激发了关于数据增强和模型优化的一系列研究，进一步丰富了该领域的学术成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集