DenseMarks 数据集

Name: DenseMarks 数据集
Creator: 慕尼黑工业大学 (Technical University of Munich, TUM) 和比勒菲尔德大学 (University of Bielefeld)
Published: 2025-11-05 02:58:03
License: 暂无描述

arXiv2025-11-05 更新2025-11-19 收录

下载链接：

https://hf-mirror.com/diddone/densemarks

下载链接

链接失效反馈

官方服务：

资源简介：

DenseMarks 数据集是一个用于学习人类头部图像的规范嵌入表示的数据集。该数据集包含大量的野外头部视频，并通过现成的点跟踪器进行了标注。数据集旨在训练一个网络，该网络能够为每个像素预测一个3D嵌入，从而将2D头部图像映射到一个语义感知的3D规范单位立方体中。数据集的创建过程涉及了对比损失和多任务学习，以实现匹配点之间的紧密嵌入。DenseMarks 表示可用于寻找共同语义部分、头部跟踪和立体重建等领域。

The DenseMarks dataset is a collection dedicated to learning canonical embedding representations of human head images. It contains a large volume of in-the-wild head videos, which are annotated using off-the-shelf point trackers. The dataset is designed to train a network that predicts a 3D embedding for each pixel, thereby mapping 2D head images into a semantic-aware 3D canonical unit cube. The construction of this dataset employs contrastive loss and multi-task learning to achieve tight embeddings between corresponding points. The DenseMarks representations can be applied to tasks such as discovering shared semantic parts, head tracking, and 3D reconstruction.

提供机构：

慕尼黑工业大学 (Technical University of Munich, TUM) 和比勒菲尔德大学 (University of Bielefeld)

创建时间：

2025-11-05

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，头部建模技术长期受限于稀疏特征点跟踪的局限性。DenseMarks数据集通过整合大规模野外谈话头部视频构建而成，采用先进点追踪算法CoTracker自动生成像素级对应关系。该构建过程首先对CelebV-HQ数据集的3.5万视频进行预处理，通过语义分割确定头部区域并均匀采样追踪点，最终形成包含32万视频序列、每序列最多400个轨迹点的标注数据集。训练阶段采用孪生网络架构，通过对比学习使匹配点嵌入向量在规范空间中相互靠近，并结合人脸关键点定位与分割任务的多重监督信号，构建出具有几何一致性的三维规范空间表征。

特点

该数据集的核心特征体现在其开创性的语义感知体积表征体系。通过将二维头部图像映射至三维规范立方体空间，实现了对包括头发、配饰等非刚性特征的完整覆盖。其嵌入向量仅需3个维度即可编码丰富的语义信息，在保持紧凑性的同时显著优于高维基础模型特征。数据集特有的空间连续性约束通过三维高斯滤波实现，确保相邻语义区域在规范空间中平滑过渡。这种设计使得模型在极端姿态、遮挡等挑战性场景下仍能保持稳定的对应关系，为单目头部追踪、立体重建等任务提供了前所未有的几何感知能力。

使用方法

该数据集的应用方法展现了多模态任务适配性。在单目头部追踪任务中，通过将预测的嵌入向量与参数化头部模型的纹理空间对齐，构建附加的光度损失函数来增强追踪鲁棒性。对于立体重建任务，可直接利用多视角图像在规范空间中的对应关系进行三维点云三角化。研究人员可通过最近邻检索实现跨样本语义对应查询，或通过规范空间中的体素区域选择实现语义部件定位。该表征体系兼容现代视觉Transformer架构，支持端到端训练流程，为头部几何分析、虚拟现实建模等应用提供了统一的基础设施。

背景与挑战

背景概述

DenseMarks数据集由慕尼黑工业大学与比勒菲尔德大学研究团队于2025年提出，旨在解决人类头部图像语义对应关系的核心研究问题。该数据集通过构建基于点轨迹学习的规范嵌入表示，突破了传统头部建模方法在头发、配饰等非规则特征处理上的局限性。其创新性地将视觉Transformer架构与对比学习策略相结合，实现了对完整头部区域的密集语义对应，为增强现实、虚拟通信等领域的头部建模技术提供了重要的理论基础。

当前挑战

该数据集面临的双重挑战体现在领域问题与构建过程两个维度。在领域层面，传统头部跟踪方法难以处理极端姿态下的遮挡问题，且对头发等非刚性特征的对应关系建模存在固有困难。构建过程中，团队需克服无密集对应真值标注的监督困境，通过集成现有点跟踪器生成伪标签数据，并设计多任务学习框架协调对比损失、地标约束与分割正则化之间的平衡，确保规范空间同时满足语义一致性与几何平滑性的严格要求。

常用场景

经典使用场景

在计算机视觉领域，DenseMarks数据集通过从多样化谈话头部视频中提取密集点轨迹，为头部图像语义对应关系研究提供了重要支撑。该数据集最经典的应用场景体现在几何感知的点匹配任务中，研究者利用其构建的规范空间嵌入表示，能够精准定位头发、耳廓等传统方法难以处理的非刚性特征，在极端姿态和遮挡条件下仍保持稳定的对应关系。

实际应用

在增强现实与虚拟现实领域，DenseMarks数据集支撑着高保真数字人建模的实际应用。基于该数据集训练的嵌入器可直接应用于实时视频通话中的头部运动追踪，通过稠密语义对应关系改善颈部和耳部等易错区域的配准效果。在影视特效制作中，该技术能够准确重建佩戴饰品或发型复杂的头部模型，为动态表情捕捉提供稳定的几何约束。

衍生相关工作

该数据集催生了多项基于规范空间学习的衍生研究。在单目追踪方向，VHAP系统通过引入DenseMarks纹理映射改进了FLAME模型配准流程；在立体视觉领域，研究者利用其嵌入表示实现了无需深度监督的多视角三维重建。后续工作进一步探索了将类似范式扩展到全身建模的可能性，推动了语义感知的稠密对应学习在动态场景理解中的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集