donut

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/LouisM2001/donut

下载链接

链接失效反馈

官方服务：

资源简介：

DONUT（Dataset Of MaNifold strUcTures）是一个包含29,517个3D样本的数据集，每个样本由水密网格和对应的点云组成。数据集中的每个样本包含一个或多个水密网格组件和一个8192点的点云表示。网格数据以.npz格式存储，包含顶点和面信息；点云数据以.npy格式存储。每个样本通过唯一的id字符串标识，并在metadata.csv中记录其拓扑元数据，包括总孔数（genus）、连接组件数量（components）以及按孔数分布的组件数量（sample_code）。该数据集适用于3D几何处理、形状分析和机器学习任务，特别是那些需要理解3D形状拓扑结构的应用。

DONUT (Dataset Of Manifold Structures) is a dataset consisting of 29,517 3D samples. Each sample comprises a watertight mesh and its corresponding point cloud. Each sample in the dataset contains one or more watertight mesh components and an 8192-point point cloud representation. Mesh data is stored in .npz format, containing vertex and face information; point cloud data is stored in .npy format. Each sample is identified by a unique ID string, and its topological metadata is recorded in metadata.csv, including the total genus, the number of connected components, and the component count distributed by genus (sample_code). This dataset is suitable for 3D geometry processing, shape analysis, and machine learning tasks, especially applications that require understanding the topological structure of 3D shapes.

创建时间：

2026-03-27

原始信息汇总

DONUT (Dataset Of MaNifold strUcTures) 数据集概述

数据集简介

DONUT 是一个包含 3D 样本的数据集，每个样本由水密网格和对应的点云组成。数据集总共有 29,517 个样本。

数据内容与结构

每个样本包含一个或多个水密网格组件和一个包含 8192 个点的点云表示。

数据集文件结构如下：

obj/ 目录：包含 .npz 格式的网格文件。
pcd/ 目录：包含 .npy 格式的点云文件。
metadata.csv 文件：包含每个样本的拓扑元数据。

obj/ 目录中有 29,517 个网格文件，pcd/ 目录中有 29,517 个点云文件。

文件格式说明

网格文件

每个网格样本存储为 obj/ 目录下的 .npz 文件，归档包含：

vertices.npy
faces.npy

一个样本可能包含一个或多个水密连接的网格组件。

点云文件

每个点云样本存储为 pcd/ 目录下的 .npy 文件。每个点云包含 8192 个点，并与具有相同 id 的样本对应。

样本标识

每个样本由一个唯一的 id 字符串标识。相同的 id 用于：

obj/ 中的文件名
pcd/ 中的文件名
metadata.csv 中的 id 列

例如，样本 id 为 abc123 的文件是：

obj/.../abc123.npz
pcd/.../abc123.npy

元数据说明

metadata.csv 包含以下列：

id：样本的唯一标识符
genus：样本中所有网格组件的总孔洞数
components：样本中连接的网格组件总数
sample_code：描述每个亏格数组件数量的 6 个整数数组

`sample_code` 含义

sample_code 是一个包含 6 个整数的数组：[n0, n1, n2, n3, n4, n5] 其中 ni 是样本中亏格数为 i 的网格组件数量。

从 sample_code 计算元数据值：

genus = sum(i * ni for i in [0, 1, 2, 3, 4, 5])
components = sum(ni for i in [0, 1, 2, 3, 4, 5])

即：

genus 是整个样本中的总孔洞数
components 是整个样本中的连接组件总数

数据集总结

DONUT 是一个包含 29,517 个流形 3D 结构样本的数据集。每个样本提供：

一个 .npz 格式的网格文件
一个 8192 个点的 .npy 格式点云
metadata.csv 中的一个元数据条目

元数据通过总亏格数、连接组件数量和组件级亏格分布来描述每个样本的整体拓扑结构。

搜集汇总

数据集介绍

构建方式

在三维几何处理与计算机视觉领域，DONUT数据集的构建体现了对多样流形结构的系统性采集。该数据集共包含29,517个样本，每个样本均由封闭网格与对应点云构成。网格数据以.npz格式存储，内含顶点与面片信息；点云则统一为8,192个点的.npy文件。所有样本通过唯一标识符关联，并辅以详细的元数据文件，记录每个样本的拓扑特征，如总亏格数、连通分量数量及各亏格分量的分布。

使用方法

使用DONUT数据集时，可通过metadata.csv中的标识符快速定位对应的网格与点云文件。研究者能够基于拓扑元数据筛选特定亏格或组件数量的样本，以支持分类、分割或生成任务。数据集的标准格式便于直接加载至主流深度学习框架，其对齐的网格-点云对亦适用于跨模态学习与三维重建算法的验证。

背景与挑战

背景概述

在三维几何处理与计算机视觉领域，高质量且具有丰富拓扑结构的数据集对于推动形状分析、生成模型及深度学习算法的进步至关重要。DONUT（Dataset Of MaNifold strUcTures）数据集应运而生，专注于提供具有明确流形结构的三维样本。该数据集由研究团队精心构建，收录了共计29,517个样本，每个样本均包含水密网格及其对应的8,192点云表示，并辅以详细的拓扑元数据，如亏格数与连通分量数量。其核心研究问题在于探索三维形状的拓扑复杂性如何影响机器学习模型的性能，特别是在形状分类、分割与生成任务中。DONUT的出现为几何深度学习社区提供了标准化的评估基准，显著促进了三维数据表示与理解方法的发展。

当前挑战

DONUT数据集旨在解决三维形状拓扑结构分析与建模中的关键挑战，其首要难题在于如何准确捕捉并量化复杂形状的拓扑特征，例如高亏格结构或多连通分量组合，这对现有形状识别与生成算法提出了严峻考验。在构建过程中，研究团队面临了数据采集与标注的双重困难：一方面，确保每个网格样本的水密性与流形性质需要严格的几何处理流程；另一方面，为大规模样本生成精确的拓扑元数据（如亏格分布）依赖于稳健的计算拓扑算法，任何误差都可能影响数据集的可靠性。此外，平衡数据集中不同拓扑类别的分布以避免偏差，亦是构建过程中需克服的重要挑战。

常用场景

经典使用场景

在三维几何处理与计算机视觉领域，DONUT数据集以其大规模、多样化的流形结构样本，为三维形状的拓扑分析提供了经典基准。该数据集常用于训练和评估深度学习模型，特别是针对点云与网格数据的生成、分类及分割任务。研究者利用其包含的29,517个样本，每个样本均提供水密网格与8192点云表示，能够系统探索形状的连通组件与亏格分布，从而推动三维形状理解的前沿进展。

解决学术问题

DONUT数据集有效解决了三维形状拓扑表征中的若干核心学术问题。通过提供精确的元数据，如总亏格数、连通组件数量及基于亏格的组件分布，该数据集支持对复杂流形结构的定量分析。这有助于研究者在形状生成、几何修复及拓扑优化等方向，克服传统方法在表征高维拓扑特征时的局限性，为三维几何的数学建模与算法设计提供了可靠的数据基础。

实际应用

在实际应用中，DONUT数据集广泛应用于三维建模、虚拟现实及工业设计等领域。其高质量的点云与网格数据可用于训练自动化形状重建系统，提升CAD软件中复杂部件的生成效率。此外，在医学影像处理中，该数据集的拓扑元数据有助于分析器官或组织的三维结构，为病理诊断与手术规划提供辅助工具，体现了从理论几何到工程实践的无缝衔接。

数据集最近研究