HAIG-2.9M

Name: HAIG-2.9M
Creator: 香港科技大学, 腾讯, 北京大学, 香港中文大学, 香港大学, 新加坡国立大学
Published: 2025-07-03 23:27:28
License: 暂无描述

arXiv2025-07-03 更新2025-07-05 收录

下载链接：

https://unimc.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

HAIG-2.9M是一个大规模、高质量、高度多样化的数据集，用于基于关键点的图像生成，适用于人类和动物。该数据集包括786K张图像，覆盖31个物种类别，包含2.9M个实例级别的边界框、关键点和标题。数据集由爬取和过滤多个高质量数据集和网站获得，并使用最先进的模型进行注释。HAIG-2.9M旨在解决现有数据集在多类、多实例图像生成方面的局限性，为图像生成领域提供高质量的数据支持。

提供机构：

香港科技大学, 腾讯, 北京大学, 香港中文大学, 香港大学, 新加坡国立大学

创建时间：

2025-07-03

搜集汇总

数据集介绍

构建方式

HAIG-2.9M数据集的构建过程体现了严谨的科学方法论与大规模数据处理的创新结合。研究团队从Pexels、Pixabay等四个高质量非商业图像网站爬取46万张原始图像，并基于JourneyDB、SA1B等四个权威数据集的207万张图像进行筛选。通过两阶段过滤机制——首先采用Grounding-DINO和YOLO-World双模型协同检测目标类别，再结合512×512分辨率阈值、5.0美学评分下限及拉普拉斯方差模糊检测等质量指标——最终精选出78.6万张优质图像。在标注环节创新性地采用五步优化策略：随机抽取5K样本进行多模型标注测试，经10人专家小组盲评确定最佳标注模型（如人体关键点选用DWPose，动物关键点采用ViTPose++H），再扩展至全量数据，并辅以5%人工复核确保2.9M实例的边界框、关键点（31个物种17个关键点/类）和细粒度描述（平均77.48词/图）的标注精度。

使用方法

该数据集为关键点引导的生成任务提供了标准化范式：1) 数据加载时，联合解析图像与JSON格式的多元标注（关键点坐标+可见性标记、类名、边界框），通过傅里叶编码γ(·)将空间坐标映射为可学习嵌入；2) 训练阶段推荐采用PIXART-α作为基础架构，以关键点-类名-边界框三元组作为条件输入，通过统一关键点编码器（MLP实现跨物种特征对齐）和时间感知调制器（配置a的全局时序适配最佳）实现细粒度控制；3) 评估指标涵盖FID/KID（质量）、CLIP相似度（对齐度）、YOLO-World类准确率（IoU>0.5）及DWPose/ViTPose++H的AP值（姿态精度）。对于多实例遮挡场景，建议启用实例重排序策略，将同实例的关键点与边界框token拼接（gall_i）以增强绑定关系。

背景与挑战

背景概述

HAIG-2.9M数据集由香港科技大学、腾讯、北京大学等机构的研究团队于2025年提出，旨在解决关键点引导的多类别（如人类与动物）图像生成问题。该数据集包含786K高质量图像和2.9M实例，涵盖31个物种类别和15个动物科，并标注了关键点、边界框及细粒度描述。其创新性在于首次联合标注人类与动物的关键点，突破了传统数据集仅针对单一类别的限制，为可控生成模型提供了大规模、多样化的训练资源，显著推动了动画制作、艺术创作等领域的进展。

当前挑战

HAIG-2.9M面临的挑战包括：1) 领域问题方面，需解决多类别非刚性物体（如重叠的人类与动物）在关键点控制下的精确生成，传统方法因类别和实例绑定混淆导致控制失效；2) 构建过程中，需克服数据长尾分布（如犀牛、河马等稀缺物种）、跨物种关键点语义差异的标注统一性，以及从16M原始数据中筛选高质量样本的复杂度。此外，需平衡生成模型的通用性与细粒度控制能力，以应对复杂遮挡场景的生成需求。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，HAIG-2.9M数据集通过其大规模、高质量且多样化的标注特性，成为关键点引导图像生成任务的基准数据集。该数据集特别适用于多类别（如人类与动物共存场景）和重度遮挡场景下的可控图像生成研究，为扩散模型提供了精确的结构控制信号。典型应用包括通过关键点坐标、边界框和类别名称联合控制生成具有复杂交互姿态的人类与动物图像，例如生成长颈鹿颈部交错或骑马者与马匹互动的场景。

解决学术问题

HAIG-2.9M解决了现有数据集中关键点标注局限于单一类别（仅人类或动物）的问题，填补了跨物种联合标注的空白。其包含786K图像和2.9M实例的规模，配合密集语义标注，显著提升了生成模型在类别绑定混淆和实例绑定混淆场景下的性能。该数据集通过统一的关键点编码空间，使得扩散变换器（DiT）能够克服传统骨架图像条件的信息丢失缺陷，为多类别非刚性物体的可控生成提供了理论验证基础。

实际应用

该数据集的实际价值体现在动画制作、虚拟内容生成和生物行为分析等领域。例如在影视预可视化中，可通过关键点精确控制角色姿态；在野生动物保护研究中，能生成特定行为模式的动物图像用于数据增强。其标注的细粒度特性还支持教育工具开发，如生成解剖学准确的动物运动序列。商业应用上，为电商平台的虚拟试穿、宠物用品展示等场景提供可控的图像合成解决方案。

数据集最近研究