MID-Vision

Hugging Face2025-03-22 更新2025-03-23 收录

下载链接：

https://huggingface.co/datasets/ThBel/MID-Vision

下载链接

链接失效反馈

官方服务：

资源简介：

MID Vision数据集是MIT CSAIL Multi-Illumination Dataset (MID) 和 MID Intrinsics数据集的扩展版本，包含了原始图像、材料图、线性反照率图、高质量的深度图和表面法线估计。这些额外的注释信息使得该数据集适用于多种基于视觉的应用，如图像分解、延迟渲染等。数据集包含30个测试视图和985个训练视图，每个视图有3种不同的照明条件。所有图像都遵循CC BY-NC-SA 4.0许可，仅用于研究目的。

MID Vision Dataset is an extended version of the MIT CSAIL Multi-Illumination Dataset (MID) and the MID Intrinsics Dataset. It includes raw images, material maps, linear albedo maps, high-quality depth maps and surface normal estimates. These additional annotations enable this dataset to support a variety of vision-based applications such as image decomposition and deferred rendering. The dataset consists of 30 test views and 985 training views, with three distinct illumination conditions for each view. All images are licensed under CC BY-NC-SA 4.0 and are for research purposes only.

创建时间：

2025-03-21

搜集汇总

数据集介绍

构建方式

MID-Vision数据集是基于MIT CSAIL多光照数据集（MID）和MID Intrinsics数据集的扩展版本，旨在通过引入高质量的深度图和表面法线图来丰富原始数据集的内容。该数据集不仅保留了MID中的原始图像和材质图，还结合了MID Intrinsics提供的线性反照率图，并通过预训练的深度估计模型（如DepthAnything V2-large）和表面法线估计模型（如Marigold-normals）生成了深度图和法线图。为了确保深度和法线估计的准确性，数据集对每个视图的25种光照条件下的预测结果进行了平均处理，从而生成对光照不敏感的密集深度和法线估计。

特点

MID-Vision数据集的核心特点在于其丰富的多模态图像数据，涵盖了原始图像、材质图、线性反照率图、深度图和表面法线图等多种信息。这些数据为计算机视觉任务提供了全面的支持，尤其适用于图像分解、延迟渲染等高级应用。此外，数据集对图像进行了预处理，将高分辨率的EXR格式图像转换为更节省存储空间的PNG格式，并随机采样了每个视图的3种光照条件，以降低存储需求。数据集包含985个训练视图和30个测试视图，图像分辨率为900x600，光照探针裁剪分辨率为256x256。

使用方法

MID-Vision数据集可通过Hugging Face的`datasets`库加载，用户可以选择加载训练集或测试集，并支持流式读取以节省内存。加载后的数据项包含文件夹名称、图像、反照率图、深度图、法线图等多种字段，用户可以根据需求提取和处理这些信息。此外，数据集还提供了Parquet格式的文件，用户可以通过`pandas.read_parquet`直接读取。数据集的非商业使用许可（CC BY-NC-SA 4.0）确保了其仅用于研究目的，禁止任何形式的商业用途。

背景与挑战

背景概述

MID-Vision数据集是MIT CSAIL Multi-Illumination Dataset（MID）及其衍生数据集MID Intrinsics的扩展版本，由研究人员Chris Careaga和Yağız Aksoy等人于2023年提出。该数据集在原有图像和材质映射的基础上，进一步引入了高质量的深度图和表面法线信息，旨在推动计算机视觉领域中的图像分解、延迟渲染等任务的研究。通过结合多光照条件下的图像数据，MID-Vision为研究者提供了丰富的几何信息，使得从图像中提取内在属性（如反射率、深度、法线等）成为可能，极大地促进了图像生成与理解技术的发展。

当前挑战

MID-Vision数据集在构建过程中面临多重挑战。首先，原始数据集中的高分辨率图像（1500x1000）存储成本较高，需通过格式转换和分辨率降低来优化存储效率。其次，为了生成高质量的深度图和表面法线，研究人员采用了预训练的深度估计模型和法线估计模型，并通过多光照条件下的图像平均来提升几何信息的准确性。此外，数据集的使用仅限于非商业研究，限制了其在工业界的广泛应用。这些挑战不仅体现在数据处理和存储优化上，还涉及如何在保持数据质量的同时，确保其在实际应用中的可用性和可扩展性。

常用场景

经典使用场景

MID-Vision数据集在计算机视觉领域中被广泛应用于图像分解和渲染任务。通过提供高质量的深度图和表面法线，该数据集使得研究人员能够深入探索图像的内在属性，如反射率、阴影和几何结构。这些信息对于图像分解、光照估计和三维重建等任务至关重要。

衍生相关工作

MID-Vision数据集衍生了许多经典的研究工作，特别是在图像分解和渲染领域。例如，基于该数据集的深度估计和表面法线预测模型在计算机视觉顶级会议上得到了广泛关注。此外，该数据集还推动了光照估计和三维重建技术的发展，为相关领域的研究提供了重要的数据基础。

数据集最近研究