restoration_test_data

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/zzqsb/restoration_test_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集存储了由`restoration_agent`包装器和评估脚本使用的精选测试数据。数据集范围仅限于测试输入，不包括模型权重、预测输出、运行时环境、日志或已知无效的旧版HDF5文件。数据集包含多个子集：All-in-one（用于Ada4DIR和PhyDAE基准评估）、HSI（包括PromptHSI AVIRIS的干净和退化测试分割）、MP-HSIR（官方自数据集测试zip部分）、Dehazing（包括Haze1k和RS-Haze的测试分割）以及Cloud/SEN12MS-CR-TS（原始测试档案和重建的HDF5链）。数据集的组织旨在保证包装器/评估的可重复性，而非严格论文复现。

创建时间：

2026-05-07

原始信息汇总

数据集概述：Restoration Test Data

基本信息

数据集名称: Restoration Test Data
数据集地址: https://huggingface.co/datasets/zzqsb/restoration_test_data
用途: 存储由 restoration_agent 封装和评估脚本使用的精选测试数据
范围限定:
- 仅包含测试输入数据
- 不包含模型权重
- 不包含预测输出
- 不包含运行时环境
- 不包含日志
- 不包含已知无效的旧版 HDF5 文件

数据集目录结构

1. All-in-one（全能类）

MDRS-Landsat 测试集:
- 已处理的测试集: all_in_one/MDRS-Landsat/Landsat/test
  - 用于 Ada4DIR 和 PhyDAE 基准评估
- 原始测试压缩包: all_in_one/MDRS-Landsat/raw/test/test.zip
  - 保留原始测试压缩包以保持来源可追溯

2. HSI（高光谱图像类）

PromptHSI AVIRIS 测试集:
- 干净测试集: hsi/AVIRIS_PromptHSI/data/test
- 退化测试集: hsi/AVIRIS_PromptHSI/data/Degradation/test
  - 包含样本描述信息
- 原始干净测试压缩包（分两部分，保留来源）:
  - hsi/AVIRIS_PromptHSI/raw/test-20260409T223448Z-3-001.zip
  - hsi/AVIRIS_PromptHSI/raw/test-20260409T223448Z-3-002.zip
MP-HSIR 测试集:
- 官方自数据集测试压缩包（分三部分）:
  - hsi/MP-HSIR/raw/test_dataset-20260425T111614Z-3-001.zip
  - hsi/MP-HSIR/raw/test_dataset-20260425T111614Z-3-002.zip
  - hsi/MP-HSIR/raw/test_dataset-20260425T111614Z-3-003.zip

3. Dehazing（去雾类）

Haze1k 测试集（用于去雾评估脚本）:
- dehazing/Haze1k/Haze1k_thin/test
- dehazing/Haze1k/Haze1k_moderate/test
- dehazing/Haze1k/Haze1k_thick/test
RS-Haze 测试集:
- dehazing/RS-Haze/original/test
  - 包含 hazy（有雾）输入和 GT（真实参考）数据

4. Cloud / SEN12MS-CR-TS（云/时序遥感类）

原始测试压缩包（SEN12MS-CR-TS，包含 S1 和 S2 数据）:
- cloud/SEN12MS-CR-TS/raw_test/s1_america_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s2_america_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s1_europa_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s2_europa_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s1_africa_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s2_africa_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s1_asiaEast_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s2_asiaEast_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s1_asiaWest_test.tar.gz
- cloud/SEN12MS-CR-TS/raw_test/s2_asiaWest_test.tar.gz
重建的 HDF5 链（U-TILISE 测试专用重运行）:
- cloud/SEN12MS-CR-TS/hdf5_testonly_rerun_20260501/test.hdf5.parts/test.hdf5.part-*
  - 因单个文件超过 Hugging Face 50GB 限制，存储为分片形式
  - 下载后使用命令 cat test.hdf5.parts/test.hdf5.part-* > test.hdf5 重新合并
- cloud/SEN12MS-CR-TS/hdf5_testonly_rerun_20260501/sen12mscrts_test_simulation.hdf5
- cloud/SEN12MS-CR-TS/hdf5_testonly_rerun_20260501/config_sen12mscrts_simulation_test_20260501.yaml

重要说明

数据集的组织旨在支持封装/评估的可复现性，并非声称严格复现论文。
本数据集的 PromptHSI AVIRIS 遵循发布的仓库本地测试集划分，而非更广泛的论文标注划分。
MP-HSIR AVIRIS 适配器数据未单独存储，直接使用 PromptHSI AVIRIS 数据。
SEN12MS-CR-TS 的冻结划分文件仅包含明确列出的内容。

搜集汇总

数据集介绍

构建方式

该数据集专为图像复原任务中的评估与封装脚本而设计，其构建聚焦于测试输入数据的系统化整理与溯源。数据集以多源遥感降质任务为维度进行组织，涵盖全合一、高光谱、去雾及云去除四大类场景，各子集均严格区分原始归档与处理后数据。例如，全合一子集中既包含经MDRS-Landsat流程处理的测试分割，亦保留原始压缩包以确保可追溯性。对于超过Hugging Face平台50GB单文件限制的SEN12MS-CR-TS数据，其HDF5格式文件被拆分为多个部分存储，并附有重组命令以方便用户恢复完整文件。

特点

该数据集最显著的特点在于其高度的结构清晰性与可复现导向，所有文件以统一前缀和层级目录存放，便于自动化脚本遍历与调用。它不仅收录了主流复原基准（如Ada4DIR、PhyDAE）所需的MDRS-Landsat测试集，还覆盖了PromptHSI AVIRIS的清洁与退化版本、Haze1k三档雾浓度子集以及RS-Haze的真实雾霾场景，有效支撑了多类降质评估。此外，数据集明确排除了模型权重、预测输出、运行时环境与日志等无关内容，专注于测试输入本身，并通过原始归档的留存保障了实验溯源的完整性。

使用方法

用户可依据复原任务类型直接通过目录路径访问对应的测试数据，例如使用全合一子集下的Landsat分割进行通用复原评估，或选择去雾子集中的Haze1k薄、中、厚三档数据对联调算法进行粒度化测试。对于SEN12MS-CR-TS经重建的HDF5链，用户需在下载后执行cat命令合并拆分文件方可得到完整test.hdf5。数据集预置的YAML配置文件可直接被U-TILISE等评估框架加载，配合标签化的压缩包与测试列表，用户能够迅速复现封装脚本中的基准测试流程，无需额外的数据预处理步骤。

背景与挑战

背景概述

该数据集由图像修复与复原领域的研究团队创建，旨在为各类恢复算法提供标准化测试数据。数据集覆盖了全场景恢复、高光谱图像复原、去雾及云去除等多任务场景，整合了MDRS-Landsat、PromptHSI AVIRIS、MP-HSIR、Haze1k、RS-Haze及SEN12MS-CR-TS等公开数据集的测试子集。其创建时间可追溯至2025至2026年间，由多个开源项目的维护者共同整理，核心研究问题在于为恢复模型提供统一、可复现的评估基准。该数据集对相关领域的影响力在于，它填补了现有基准中测试数据分散、格式不统一的空白，有助于推动图像恢复算法的公平比较与标准化评估。

当前挑战

数据集所解决的领域挑战在于，当前图像恢复任务（如去雾、高光谱复原、云去除）缺乏统一的测试基准，导致算法评估难以横向对比。构建过程中的挑战主要包括：一是数据规模庞大，如SEN12MS-CR-TS的HDF5文件超过50GB单文件限制，需拆分为多个部分存储；二是原始数据格式多样化，包括zip压缩包、tar.gz归档及HDF5格式，需统一组织；三是对数据来源的版本管理，如PromptHSI AVIRIS仅采用已发布仓库的测试分割而非论文全部分割，需明确标注以避免混淆；四是文件完整性保障，需保留原始压缩包以追溯来源，并应对如HDF5对象布局读取错误等已知问题，确保数据可复现性。

常用场景

经典使用场景

restoration_test_data数据集是专为遥感图像复原任务设计的标准化测试基准，其经典使用场景聚焦于评估各类复原算法的泛化性能与鲁棒性。该数据集汇聚了多模态、多退化类型的测试样本，涵盖全色锐化、高光谱图像复原、去雾以及云去除等核心遥感图像处理任务。研究者可通过调用该数据集中精心划分的测试子集，对提出的新模型进行公平、可重复的验证，从而推动了遥感图像复原领域评估体系的规范化与标准化。

解决学术问题

该数据集系统性地解决了遥感图像复原研究中长期存在的基准不统一与评估结果难以复现的学术痛点。通过提供来自MDRS-Landsat、Haze1k、RS-Haze、SEN12MS-CR-TS等公开权威数据集的标准化测试拆分，它使研究者能够在相同条件下比较不同方法的性能，消除了因数据预处理差异、测试集随机性等因素引入的评估偏差。其影响在于显著提升了该领域研究的科学严谨性，为学术成果的横向对比与纵向迭代提供了可靠基石。

衍生相关工作

基于该测试基准，衍生了众多具有影响力的相关研究工作。例如，Ada4DIR与PhyDAE等先进复原方法直接采用了其包含的MDRS-Landsat测试拆分进行性能评估；PromptHSI与MP-HSIR等专门针对高光谱图像的复原模型也依仗该数据集提供的AVIRIS测试样本开展实验。此外，针对云覆盖问题，U-TILISE框架利用该数据集的SEN12MS-CR-TS测试链完成了去云效果的评估验证，进一步拓展了数据集的学术生态与应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集