depth-anything/DA-2K
收藏Hugging Face2024-06-14 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/depth-anything/DA-2K
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
# DA-2K Evaluation Benchmark
## Introduction

DA-2K is proposed in [Depth Anything V2](https://depth-anything-v2.github.io) to evaluate the relative depth estimation capability. It encompasses eight representative scenarios of `indoor`, `outdoor`, `non_real`, `transparent_reflective`, `adverse_style`, `aerial`, `underwater`, and `object`. It consists of 1K diverse high-quality images and 2K precise pair-wise relative depth annotations.
Please refer to our [paper](https://arxiv.org/abs/2406.09414) for details in constructing this benchmark.
## Usage
Please first [download the benchmark](https://huggingface.co/datasets/depth-anything/DA-2K/tree/main).
All annotations are stored in `annotations.json`. The annotation file is a JSON object where each key is the path to an image file, and the value is a list of annotations associated with that image. Each annotation describes two points and identifies which point is closer to the camera. The structure is detailed below:
```
{
"image_path": [
{
"point1": [h1, w1], # (vertical position, horizontal position)
"point2": [h2, w2], # (vertical position, horizontal position)
"closer_point": "point1" # we always set "point1" as the closer one
},
...
],
...
}
```
To visualize the annotations:
```bash
python visualize.py [--scene-type <type>]
```
**Options**
- `--scene-type <type>` (optional): Specify the scene type (`indoor`, `outdoor`, `non_real`, `transparent_reflective`, `adverse_style`, `aerial`, `underwater`, and `object`). Skip this argument or set <type> as `""` to include all scene types.
## Citation
If you find this benchmark useful, please consider citing:
```bibtex
@article{depth_anything_v2,
title={Depth Anything V2},
author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Zhao, Zhen and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},
journal={arXiv:2406.09414},
year={2024}
}
```
---
许可证:Apache-2.0
---
# DA-2K 评测基准
## 介绍

DA-2K 由[深度 Anything V2(Depth Anything V2)](https://depth-anything-v2.github.io)提出,用于评测相对深度估计能力。该基准涵盖8类典型场景:室内(indoor)、室外(outdoor)、非真实(non_real)、透明反射(transparent_reflective)、风格异常(adverse_style)、航空(aerial)、水下(underwater)以及物体(object)。它包含1000张多样化的高质量图像,以及2000组精准的成对相对深度标注。
有关该基准构建的详细信息,请参阅我们的[论文](https://arxiv.org/abs/2406.09414)。
## 使用方法
请首先[下载该基准数据集](https://huggingface.co/datasets/depth-anything/DA-2K/tree/main)。
所有标注均存储于`annotations.json`文件中。该标注文件为JSON对象,其中每个键为图像文件的路径,对应的值为该图像的标注列表。每条标注描述两个点,并指明哪个点更靠近相机。其结构详情如下:
{
"image_path": [
{
"point1": [h1, w1], # (垂直坐标,水平坐标)
"point2": [h2, w2], # (垂直坐标,水平坐标)
"closer_point": "point1" # 默认将point1标记为更近点
},
...
],
...
}
若需可视化标注,可运行以下命令:
bash
python visualize.py [--scene-type <type>]
**可选参数**
- `--scene-type <type>`(可选):指定场景类型,支持`indoor`(室内)、`outdoor`(室外)、`non_real`(非真实)、`transparent_reflective`(透明反射)、`adverse_style`(风格异常)、`aerial`(航空)、`underwater`(水下)以及`object`(物体)。若跳过该参数或将<type>设为`""`,则包含所有场景类型。
## 引用
若您认为该基准数据集对研究有所帮助,请引用以下文献:
bibtex
@article{depth_anything_v2,
title={Depth Anything V2},
author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Zhao, Zhen and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},
journal={arXiv:2406.09414},
year={2024}
}
提供机构:
depth-anything
原始信息汇总
DA-2K Evaluation Benchmark
简介
DA-2K是在Depth Anything V2中提出的,用于评估相对深度估计能力的基准。它包含八个代表性场景:室内、室外、非真实、透明反射、恶劣风格、航空、水下和物体。该基准包含1K张多样的高质量图像和2K对精确的相对深度标注。
使用方法
请先下载基准。
所有标注存储在annotations.json中。标注文件是一个JSON对象,其中每个键是图像文件的路径,值是与该图像关联的标注列表。每个标注描述两个点,并标识哪个点更靠近相机。结构如下:
json { "image_path": [ { "point1": [h1, w1], # (垂直位置, 水平位置) "point2": [h2, w2], # (垂直位置, 水平位置) "closer_point": "point1" # 我们总是将"point1"设为更近的点 }, ... ], ... }
可视化标注的方法:
bash python visualize.py [--scene-type <type>]
选项
--scene-type <type>(可选): 指定场景类型(室内、室外、非真实、透明反射、恶劣风格、航空、水下和物体)。跳过此参数或将<type>设为""以包含所有场景类型。
引用
如果您发现此基准有用,请考虑引用:
bibtex @article{depth_anything_v2, title={Depth Anything V2}, author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Zhao, Zhen and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang}, journal={arXiv:2406.09414}, year={2024} }
搜集汇总
数据集介绍

构建方式
DA-2K数据集旨在评估相对深度估计能力,其构建过程涉及八个代表性场景,包括室内、室外、非现实、透明反射、不良风格、航拍、水下和物体等。该数据集由1K张多样化的高质量图像和2K对精确的成对相对深度注释组成,旨在为深度估计研究提供全面的评估基准。
特点
DA-2K数据集以其丰富的场景类型和精确的相对深度注释而著称。它不仅覆盖了多种实际应用场景,还提供了成对的深度标注,使得研究者能够在相对深度估计任务上开展更为深入的分析与模型训练。此外,数据集遵循Apache-2.0许可,保证了其使用的开放性与灵活性。
使用方法
使用DA-2K数据集,研究者首先需要从HuggingFace平台下载相关资源。所有注释存储在`annotations.json`文件中,每个图像的路径对应一个包含成对深度注释的列表。通过提供的可视化脚本,用户可以轻松地查看不同场景类型的注释效果,进而针对特定场景或整体数据集进行深度估计模型的训练与评估。
背景与挑战
背景概述
在计算机视觉领域,相对深度估计是三维视觉理解的重要组成部分。DA-2K数据集,作为Depth Anything V2项目的一部分,由Yang Lihe等研究人员于2024年提出,旨在评估模型在相对深度估计方面的性能。该数据集涵盖了八种代表性场景,包括室内、室外、非现实、透明反射、逆向风格、航拍、水下和物体等,包含了1K张多样化的高质量图像和2K对精确的相对深度注释。该数据集的构建为相关领域的研究提供了重要基准,其影响力在学术界正逐步显现。
当前挑战
DA-2K数据集在构建过程中面临了多方面的挑战。首先,如何准确地进行相对深度注释,确保数据标注的质量和一致性,是一大挑战。其次,由于场景的多样性,数据集在处理不同类型图像时,如透明反射、逆向风格等,需要模型具备更强的泛化能力和鲁棒性。此外,数据集的构建还需解决如何平衡不同场景类型的样本分布,以避免模型在特定场景上的过拟合问题。
常用场景
经典使用场景
在视觉感知领域,深度估计是一项关键任务。DA-2K数据集作为评估相对深度估计能力的基准,其经典使用场景在于为研究提供了涵盖室内、室外、非现实、透明反射、风格化逆境、航拍、水下以及物体等八种代表性场景的千张高质量图像及两千对精确的相对深度标注。这为深度估计算法的训练与验证提供了全面且细致的测试平台。
解决学术问题
该数据集解决了深度估计领域中缺乏多样化、高质量标注数据的问题,有助于研究者准确评估算法在不同场景下的性能表现。其丰富的场景类型和精确的标注信息为算法优化提供了可靠依据,对于推动深度估计技术的进步具有重要意义。
衍生相关工作
基于DA-2K数据集,研究者们衍生出了众多相关工作,如深度估计算法的改进、新型基准的构建以及跨场景深度估计模型的探索。这些研究进一步拓展了该数据集的应用范围,推动了视觉感知领域的发展。
以上内容由遇见数据集搜集并总结生成



