doc3D

github2024-05-07 更新2024-05-31 收录

下载链接：

https://github.com/cvlab-stonybrook/doc3D-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

doc3D是首个专注于文档展开的3D数据集，包含真实的纸张弯曲和渲染。数据集包含10万张图像，以及以下ground-truth信息：3D坐标、深度、UV、逆映射、反射率、法线和棋盘格。

Doc3D is the first 3D dataset dedicated to document flattening, encompassing genuine paper bending and rendering. The dataset comprises 100,000 images, along with the following ground-truth information: 3D coordinates, depth, UV, inverse mapping, reflectivity, normals, and checkerboard patterns.

创建时间：

2019-09-15

原始信息汇总

数据集概述

名称: Doc3D

描述: Doc3D是首个专注于文档展开的3D数据集，包含真实的纸张扭曲和渲染效果。

数据内容:

图像数量: 100,000张
地面实况:
- 3D坐标
- 深度
- UV
- 反向映射
- 反照率
- 法线
- 棋盘格

下载信息:

需要通过填写Google Form获取用户名和密码。
使用bash脚本下载，支持全量下载或部分数据下载。

渲染代码: 提供渲染脚本，用户可自行渲染数据集。

数据可视化: 通过demo.py脚本展示随机图像及其地面实况。

版本更新:

2019年9月16日: v0.5 (36K图像，无深度图)
2019年9月17日: v0.5.1 (为v0.5图像添加深度图)
2019年9月22日: v0.9 (65K图像，无反照率)
2020年3月11日: 请求网格(.obj)需发送邮件。

引用信息:

@inproceedings{SagnikKeICCV2019, Author = {Sagnik Das*, Ke Ma*, Zhixin Shu, Dimitris Samaras, Roy Shilkrot}, Booktitle = {Proceedings of International Conference on Computer Vision}, Title = {DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks}, Year = {2019}}

搜集汇总

数据集介绍

构建方式

doc3D数据集作为首个专注于文档展开的3D数据集，通过模拟真实的纸张弯曲和渲染效果，构建了100,000张图像。该数据集的构建过程中，采用了多种真实感渲染技术，生成了包括3D坐标、深度图、UV映射、反向映射、反射率、法线和棋盘格等多种地面真实值。这些数据通过精细的渲染算法生成，确保了数据的真实性和多样性，为文档展开任务提供了丰富的训练和测试资源。

使用方法

使用doc3D数据集时，用户可以通过提供的bash脚本进行数据下载，需先通过Google表单获取用户名和密码，并在脚本中更新这些信息。数据集支持全量下载或按需下载特定部分，如图像文件。下载后，用户可运行`demo.py`文件进行数据可视化，该脚本支持显示随机图像及其对应的地面真实值，并可选择是否使用反向映射进行图像展开。此外，数据集还提供了渲染代码，用户可自行生成doc3D数据集的版本。

背景与挑战

背景概述

doc3D数据集是首个专注于文档展开的3D数据集，旨在通过提供真实的纸张弯曲和渲染图像，推动文档展开技术的研究。该数据集由Sagnik Das、Ke Ma、Zhixin Shu、Dimitris Samaras和Roy Shilkrot等研究人员于2019年创建，隶属于国际计算机视觉会议（ICCV）的成果。doc3D包含了10万张图像，每张图像附带多种真实标注，如3D坐标、深度图、UV映射、反向映射、反射率、法线和棋盘格等。这些丰富的标注为文档展开及相关领域的研究提供了宝贵的资源，尤其在单图像文档展开与3D/2D回归网络的结合方面，具有重要的学术价值。

当前挑战

doc3D数据集的构建面临多重挑战。首先，生成真实的纸张弯曲效果和高质量的渲染图像需要复杂的3D建模和渲染技术，这对计算资源和算法设计提出了高要求。其次，数据集的标注过程涉及多种高精度几何信息的提取，如3D坐标和深度图，确保这些标注的准确性和一致性是另一大挑战。此外，数据集的规模庞大，如何高效地存储、传输和处理这些数据也是实际应用中的难题。最后，尽管doc3D提供了丰富的标注，如何有效利用这些标注进行模型训练和评估，仍需进一步的研究和探索。

常用场景

经典使用场景

doc3D数据集在文档图像处理领域中具有广泛的应用，尤其是在文档去扭曲（unwarping）任务中表现尤为突出。该数据集提供了丰富的真实纸张扭曲和渲染图像，结合3D坐标、深度、UV映射、反向映射、反射率、法线和棋盘格等多种地面真值，使得研究人员能够训练和验证各种文档去扭曲算法。通过利用这些多维度的信息，doc3D数据集为开发更精确的文档恢复技术提供了坚实的基础。

解决学术问题

doc3D数据集解决了文档图像处理中的一个关键问题，即如何从扭曲的文档图像中恢复其原始平面结构。这一问题在学术研究中具有重要意义，因为它不仅涉及图像处理技术，还涉及到3D几何和计算机视觉的交叉领域。通过提供高质量的3D坐标和深度信息，doc3D数据集使得研究人员能够开发出更精确的文档去扭曲算法，从而推动了该领域的技术进步。

实际应用

在实际应用中，doc3D数据集的应用场景广泛，包括但不限于文档扫描、数字化图书馆、自动文档分类和归档等。例如，在文档扫描过程中，由于纸张的物理扭曲，扫描得到的图像往往需要进行去扭曲处理，以恢复其原始的平面结构。doc3D数据集提供的丰富信息和高质量的地面真值，使得开发出的去扭曲算法能够更准确地应用于实际场景，提高了文档处理的效率和准确性。

数据集最近研究