HY3D-Bench
收藏github2026-02-05 更新2026-02-06 收录
下载链接:
https://github.com/Tencent-Hunyuan/HY3D-Bench
下载链接
链接失效反馈官方服务:
资源简介:
HY3D-Bench是一个高质量的3D数据集集合,旨在解决现有3D存储库的关键限制。它包含三个互补的数据集,提供干净、结构化和多样化的3D内容,适用于计算机视觉、生成建模和机器人研究。
HY3D-Bench is a high-quality 3D dataset collection designed to address the critical limitations of existing 3D repositories. It comprises three complementary datasets that provide clean, structured and diverse 3D content, tailored for computer vision, generative modeling and robotics research.
创建时间:
2026-02-03
原始信息汇总
HY3D-Bench 数据集概述
数据集简介
HY3D-Bench 是一个高质量的三维数据集集合,旨在解决现有三维数据存储库的关键局限性。该数据集提供了干净、结构化且多样化的三维内容,适用于计算机视觉、生成建模和机器人技术等领域的研究。
核心特性
- 训练就绪质量:所有网格均为水密、归一化且经过清理。
- 标准化格式:一致的文件格式和元数据结构。
数据集子集详情
1. 完整级别数据集
包含具有水密网格的完整三维对象,经过专业流程处理以确保训练就绪质量。
包含内容:
- 每个对象的水密网格(无孔洞,流形几何)
- 高保真多视角渲染(来自标准化相机姿态的RGB图像)
- 已清理和归一化的几何体,可直接用于稳定的三维生成训练
数据规模:
- 对象数量:252,000+
- 数据大小:约 11 TB
主要用途:
- 训练三维生成模型(扩散、GAN、自回归)
- 三维重建基准测试
- 单视图到三维任务
- 几何深度学习
2. 部件级别数据集
包含具有一致部件级分解和独立部件资产的对象。
包含内容:
- 原始网格分割结果(部件标签)
- 独立的部件级水密网格(每个部件作为单独的干净网格)
- 部件组装RGB渲染(组装部件的视角相关图像)
数据规模:
- 对象数量:240,000+
- 数据大小:约 5.0 TB
主要用途:
- 部件感知的三维生成
- 细粒度几何感知
- 基于部件的形状分析
- 机器人操作(可供性学习、抓取规划)
3. 合成数据集
包含由AI生成的长尾对象,覆盖稀有和多样化类别。
包含内容:
- 20个超类别,130个类别,1,252个细粒度子类别
- 文本到三维流程输出(LLM → 扩散 → 图像到三维重建)
- 长尾对象覆盖(稀有物品、专业类别)
数据规模:
- 对象数量:125,000+
- 数据大小:约 6.5 TB
主要用途:
- 在多样化类别上训练鲁棒模型
- 为代表性不足的类别进行数据增强
- 零样本泛化评估
- 机器人仿真环境(多样化对象库)
生成流程:
- 文本到文本:使用大型语言模型进行语义扩展
- 文本到图像:通过扩散模型进行视觉合成
- 图像到三维:使用最先进的三维生成模型生成带纹理的网格
数据集结构
HY3D-Bench/ ├── full/ │ ├── test/ │ │ ├──images │ │ ├──sample_points │ │ └──water_tight_meshes │ ├── train/ │ └── val/ ├── part/ │ ├── images/ │ └── water_tight_meshes └── synthetic/ ├── glb/ └── img/
下载信息
- 下载地址:https://huggingface.co/datasets/tencent/HY3D-Bench
- 完整数据集下载命令:
hf download tencent/HY3D-Bench --repo-type dataset --local-dir "your/local/path" - 特定子集下载命令(示例):
hf download tencent/HY3D-Bench --repo-type dataset --include "full/**" --local-dir "your/local/path"
基准模型
使用完整级别数据训练了基准模型 Hunyuan3D-Shape-v2-1 Small 以评估数据集的有效性。
| 模型 | 日期 | 大小 | 下载地址 |
|---|---|---|---|
| Model_2048tokens | 2026-02-04 | 0.8B | https://huggingface.co/tencent/HY3D-Bench |
| Model_4096tokens | 2026-02-04 | 0.8B | https://huggingface.co/tencent/HY3D-Bench |
引用文献
主要引用文献为:
- HY3D-Bench: Generation of 3D Assets (arXiv:2602.03907)
- P3-sam: Native 3d part segmentation (arXiv:2509.06784)
- X-Part: high fidelity and structure coherent shape decomposition (arXiv:2509.08643)
- Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets (arXiv:2509.21245)
- Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material (arXiv:2506.15442)
- Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation (arXiv:2501.12202)
- Hunyuan3D 1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation (arXiv:2411.02293)
搜集汇总
数据集介绍

构建方式
在三维视觉与生成模型领域,高质量数据的稀缺性长期制约着前沿研究的进展。HY3D-Bench的构建旨在系统性地解决现有数据集中普遍存在的噪声、非流形几何与结构粒度缺失等问题。其构建过程依托于一个专业化的多阶段处理流程:针对完整物体数据集,通过几何清洗与归一化处理,确保所有网格均为水密且流形;部件级数据集则采用了精细的部件分解与标注技术,为每个对象生成结构化的部件级网格;而合成数据集则创新性地融合了大语言模型、扩散模型与先进的三维生成模型,通过文本到图像再到三维的级联流程,生成了覆盖长尾类别的多样化合成资产。
特点
该数据集的核心特征体现在其多层次、高质量与标准化的设计理念。它包含三个互补的子集:完整物体数据集提供了超过25.2万个水密网格、多视角渲染图与采样点云,确保了训练就绪的几何质量;部件级数据集则包含超过24万个对象,具备精细的部件分解与独立的部件网格,支持细粒度的结构分析;合成数据集借助生成式人工智能技术,涵盖了1252个细粒度类别的超过12.5万个合成对象,极大地扩展了数据的多样性与覆盖范围。所有数据均采用统一的文件格式与元数据结构,为三维生成、感知与机器人操作等任务提供了坚实可靠的基础。
使用方法
对于研究人员而言,HY3D-Bench提供了清晰便捷的使用途径。数据集可通过Hugging Face平台下载,支持整体获取或按子集(如完整级、部件级、合成级)选择性下载。数据目录结构经过精心组织,分别包含训练、验证与测试划分,以及对应的图像、采样点与水密网格文件。用户可依据研究目标灵活调用:完整数据集适用于三维生成模型训练与重建基准测试;部件数据集可用于部件感知生成与机器人抓取规划;合成数据集则能有效增强模型在稀缺类别上的泛化能力。官方提供的基线模型与数据加载示例脚本进一步降低了使用门槛,助力快速开展实验。
背景与挑战
背景概述
三维视觉与生成模型领域的蓬勃发展,催生了对大规模、高质量三维数据集的迫切需求。HY3D-Bench由腾讯混元团队于2026年2月正式发布,旨在解决现有三维数据仓库中普遍存在的几何噪声、非流形结构以及缺乏细粒度语义分割等核心瓶颈。该数据集整合了全物体级别、部件级别及合成数据三大子集,共计提供超过六十万个经过严格处理的网格模型,覆盖了从完整物体到结构化部件,再到人工智能生成的长尾类别对象的全方位三维内容。其构建不仅为三维生成、重建与感知研究提供了标准化的训练资源,更通过配套的基线模型验证了数据在驱动前沿模型训练方面的实际效力,对推动计算机视觉与机器人学向高保真、可控制的三维内容生成迈进具有显著影响力。
当前挑战
在三维视觉领域,如何获取大规模、高质量且具有结构一致性的三维数据一直是核心挑战。现有数据集常受限于几何不完整、拓扑错误以及类别覆盖的偏差,严重制约了生成模型与感知算法的性能上限。HY3D-Bench的构建过程同样面临多重考验:其一,海量原始三维模型的清洗与流形化处理需要复杂的几何算法与大量计算资源,以确保每个网格具备水密性;其二,实现跨类别、跨实例的部件级语义分解,要求建立鲁棒且统一的分割范式,这对标注一致性与算法泛化能力提出了极高要求;其三,合成数据子集的创建依赖于多模态生成管道的协同,涉及大语言模型的语义扩展、扩散模型的视觉合成以及图像到三维的重建技术,任何环节的偏差均可能导致生成资产的质量下降或语义失真。
常用场景
经典使用场景
在三维计算机视觉与生成式人工智能领域,高质量、结构化的三维数据是推动模型性能突破的关键基石。HY3D-Bench数据集通过其全级别、部件级别与合成级别三个互补子集,为三维生成模型的训练与评估提供了经典范例。其全级别数据集包含超过25.2万个水密网格与多视角渲染图像,直接服务于扩散模型、生成对抗网络等生成架构的训练,成为单视图三维重建、几何深度学习等任务的标准基准。
实际应用
超越纯学术探索,HY3D-Bench在工业设计与机器人技术等领域展现出广泛的实际应用潜力。其全级别数据可直接用于产品原型快速生成与虚拟内容创作,加速数字孪生与元宇宙场景的资产构建。部件级别数据为机器人抓取规划与操作技能学习提供了结构化的物体部件信息,赋能具身智能系统对复杂物体的理解与交互。合成数据集所涵盖的多样化和稀有类别对象,则能为仿真环境提供丰富的物体库,服务于自动驾驶、仓储物流等场景的算法测试与训练。
衍生相关工作
该数据集的构建与发布,本身即与腾讯混元三维团队的一系列前沿研究工作紧密耦合,并催生了多个经典衍生成果。例如,基于全级别数据训练的Hunyuan3D-Shape-v2-1基线模型,验证了数据集在三维生成任务上的有效性。同时,部件级别数据支撑了如P3-SAM、X-Part等专注于三维部件分割与高保真结构分解的研究工作。而Hunyuan3D-Omni、Hunyuan3D 2.1等统一框架的提出,也充分借鉴并利用了该数据集在多模态生成与控制方面的潜力,共同推动了可控三维资产生成领域的技术发展。
以上内容由遇见数据集搜集并总结生成



