DH-FaceVid-1K

github2025-07-11 更新2025-07-17 收录

下载链接：

https://github.com/luna-ai-lab/DH-FaceVid-1K

下载链接

链接失效反馈

官方服务：

资源简介：

DH-FaceVid-1K是一个大规模高质量的面部视频生成数据集，包含270,043个视频剪辑以及相应的音频和注释，涵盖超过20,000个独特身份和超过1,200小时的面部视频素材，拍摄于各种环境条件和光照场景。值得注意的是，83%的数据集代表亚洲个体，解决了开源亚洲面部视频数据集的显著短缺问题。

DH-FaceVid-1K is a large-scale, high-quality facial video generation dataset containing 270,043 video clips along with corresponding audio and annotations. It encompasses over 20,000 unique identities and more than 1,200 hours of facial video material, captured under various environmental conditions and lighting scenarios. Notably, 83% of the dataset represents Asian individuals, addressing the significant shortage of open-source Asian facial video datasets.

创建时间：

2025-07-11

原始信息汇总

DH-FaceVid-1K 数据集概述

基本信息

数据集名称: DH-FaceVid-1K
会议/期刊: ICCV 2025
论文链接: https://arxiv.org/abs/2410.07151
项目网站: https://dh-facevid-1k.github.io/DH-FaceVid-1K/
数据集版本: v1.0
数据集申请链接: https://forms.gle/vEyouWdS9CgcRFMt9
许可证链接: https://github.com/DH-FaceVid-1K/DH-FaceVid-1K/blob/main/LICENSE

数据集详情

数据规模: 270,043个视频片段
时长: 超过1,200小时
数据量: 约4.01 TB
分辨率: 视频样本调整为256×256分辨率
唯一身份数: 超过20,000个
主要种族: 83%为亚洲人

数据内容

包含内容:
- 视频片段
- 对应的语音音频
- 面部关键点
- 文本注释
属性标注:
- 种族
- 外观细节
- 情绪
- 动作
- 光照条件

数据集特点

多样性: 多种族覆盖
高质量: 全面的个体属性标注
应用场景: 支持文本到视频和图像到视频生成等任务

引用信息

bibtex @inproceedings{Di2024FaceVid1KAL, title={FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset}, author={Donglin Di and He Feng and Wenzhang Sun and Yongjia Ma and Hao Li and Wei Chen and Xiaofei Gou and Tonghua Su and Xun Yang}, year={2024}, url={https://api.semanticscholar.org/CorpusID:273233717} }

注意事项

数据使用: 必须遵守相关许可协议
申请流程: 需提交信息审核，审核通过后1-2天内发送下载说明
联系方式: fenghe021209@gmail.com

搜集汇总

数据集介绍

构建方式

在计算机视觉与生成式模型蓬勃发展的背景下，DH-FaceVid-1K数据集通过众包平台系统性地采集了270,043段高质量人脸视频片段，总时长超过1,200小时。构建过程采用标准化采集管道，涵盖20,000余个独特身份，特别注重亚洲人种的样本覆盖（占比83%），并同步收录语音音频、面部关键点及多模态文本标注。所有数据均经过严格的伦理审查与许可协议约束，确保数据来源合法合规。

特点

该数据集以其规模性与多样性著称，视频分辨率达256×256像素，包含120余种光照场景与复杂环境条件下的面部动态。其核心优势在于精细标注的复合属性体系，涵盖人种、发型、情绪状态、动作类别等维度，且突破性地解决了现有公开数据集中亚洲人脸视频样本匮乏的问题。与同类数据集相比，DH-FaceVid-1K在样本总量、标注粒度及种族平衡性方面均具有显著优势。

使用方法

研究者需通过官方表单提交申请，经伦理审查后获取数据访问权限。数据集支持文本到视频、图像到视频等生成任务，配套提供预训练模型基准测试框架。使用时应严格遵守许可协议，禁止将数据用于身份识别等敏感场景。典型应用包括但不限于跨模态生成模型训练、面部动态分析算法验证，以及生成式人工智能的偏见缓解研究。

背景与挑战

背景概述

DH-FaceVid-1K是由Donglin Di等研究人员于2024年推出的一个大规模高质量人脸视频生成数据集，旨在解决生成式人脸视频模型训练中数据稀缺的问题。该数据集由来自20,000多个独特身份的270,043个视频片段组成，总时长超过1,200小时，涵盖了多样化的环境条件和光照场景。特别值得注意的是，该数据集中83%的样本为亚洲人面孔，有效缓解了现有公开数据集中亚洲人脸代表性不足的问题。作为ICCV 2025的官方数据集，DH-FaceVid-1K不仅提供了视频数据，还包括对应的语音音频、面部关键点和文本标注，为人脸视频生成领域的研究提供了重要的基础资源。

当前挑战

在人脸视频生成领域，现有数据集普遍面临规模有限、多样性不足等问题，特别是缺乏具有多民族代表性的高质量数据。DH-FaceVid-1K在构建过程中需要克服数据采集、标注和质量控制等多重挑战。首先，确保大规模视频数据的采集质量和一致性是一项复杂任务，需要设计严格的采集流程和标准。其次，对视频数据进行精准标注（如面部关键点、情感状态等）需要投入大量人力和计算资源。此外，数据集的伦理审查和授权管理也面临挑战，需要建立完善的数据使用协议以防止滥用。这些挑战的解决为构建更公平、更具代表性的人脸视频数据集提供了重要参考。

常用场景

经典使用场景

在计算机视觉领域，高质量人脸视频生成技术正逐渐成为研究热点。DH-FaceVid-1K数据集凭借其大规模、多民族覆盖的特性，为文本到视频、图像到视频等生成任务提供了理想的训练素材。该数据集包含27万条视频样本，涵盖2万多个独特身份，特别注重亚洲人种的平衡性，有效解决了现有数据集中亚洲面孔代表性不足的问题。研究人员可利用这些数据训练生成对抗网络或扩散模型，实现逼真的人脸视频合成。

衍生相关工作

自DH-FaceVid-1K发布以来，已催生多个重要研究方向。在基础模型方面，研究者基于该数据集开发了支持文本驱动的视频生成框架FaceVidGPT；在评估体系领域，衍生出首个针对多民族人脸生成的公平性评测基准FairFaceGen。此外，该数据集还促进了跨模态学习的研究，如音频驱动的人脸动画系统LipSync3D等突破性工作，这些成果均发表在CVPR、ICML等顶级会议上。

数据集最近研究