five

DH-FaceVid-1K

收藏
github2025-07-11 更新2025-07-17 收录
下载链接:
https://github.com/luna-ai-lab/DH-FaceVid-1K
下载链接
链接失效反馈
官方服务:
资源简介:
DH-FaceVid-1K是一个大规模高质量的面部视频生成数据集,包含270,043个视频剪辑以及相应的音频和注释,涵盖超过20,000个独特身份和超过1,200小时的面部视频素材,拍摄于各种环境条件和光照场景。值得注意的是,83%的数据集代表亚洲个体,解决了开源亚洲面部视频数据集的显著短缺问题。

DH-FaceVid-1K is a large-scale, high-quality facial video generation dataset containing 270,043 video clips along with corresponding audio and annotations. It encompasses over 20,000 unique identities and more than 1,200 hours of facial video material, captured under various environmental conditions and lighting scenarios. Notably, 83% of the dataset represents Asian individuals, addressing the significant shortage of open-source Asian facial video datasets.
创建时间:
2025-07-11
原始信息汇总

DH-FaceVid-1K 数据集概述

基本信息

  • 数据集名称: DH-FaceVid-1K
  • 会议/期刊: ICCV 2025
  • 论文链接: https://arxiv.org/abs/2410.07151
  • 项目网站: https://dh-facevid-1k.github.io/DH-FaceVid-1K/
  • 数据集版本: v1.0
  • 数据集申请链接: https://forms.gle/vEyouWdS9CgcRFMt9
  • 许可证链接: https://github.com/DH-FaceVid-1K/DH-FaceVid-1K/blob/main/LICENSE

数据集详情

  • 数据规模: 270,043个视频片段
  • 时长: 超过1,200小时
  • 数据量: 约4.01 TB
  • 分辨率: 视频样本调整为256×256分辨率
  • 唯一身份数: 超过20,000个
  • 主要种族: 83%为亚洲人

数据内容

  • 包含内容:
    • 视频片段
    • 对应的语音音频
    • 面部关键点
    • 文本注释
  • 属性标注:
    • 种族
    • 外观细节
    • 情绪
    • 动作
    • 光照条件

数据集特点

  • 多样性: 多种族覆盖
  • 高质量: 全面的个体属性标注
  • 应用场景: 支持文本到视频和图像到视频生成等任务

引用信息

bibtex @inproceedings{Di2024FaceVid1KAL, title={FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset}, author={Donglin Di and He Feng and Wenzhang Sun and Yongjia Ma and Hao Li and Wei Chen and Xiaofei Gou and Tonghua Su and Xun Yang}, year={2024}, url={https://api.semanticscholar.org/CorpusID:273233717} }

注意事项

  • 数据使用: 必须遵守相关许可协议
  • 申请流程: 需提交信息审核,审核通过后1-2天内发送下载说明
  • 联系方式: fenghe021209@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与生成式模型蓬勃发展的背景下,DH-FaceVid-1K数据集通过众包平台系统性地采集了270,043段高质量人脸视频片段,总时长超过1,200小时。构建过程采用标准化采集管道,涵盖20,000余个独特身份,特别注重亚洲人种的样本覆盖(占比83%),并同步收录语音音频、面部关键点及多模态文本标注。所有数据均经过严格的伦理审查与许可协议约束,确保数据来源合法合规。
特点
该数据集以其规模性与多样性著称,视频分辨率达256×256像素,包含120余种光照场景与复杂环境条件下的面部动态。其核心优势在于精细标注的复合属性体系,涵盖人种、发型、情绪状态、动作类别等维度,且突破性地解决了现有公开数据集中亚洲人脸视频样本匮乏的问题。与同类数据集相比,DH-FaceVid-1K在样本总量、标注粒度及种族平衡性方面均具有显著优势。
使用方法
研究者需通过官方表单提交申请,经伦理审查后获取数据访问权限。数据集支持文本到视频、图像到视频等生成任务,配套提供预训练模型基准测试框架。使用时应严格遵守许可协议,禁止将数据用于身份识别等敏感场景。典型应用包括但不限于跨模态生成模型训练、面部动态分析算法验证,以及生成式人工智能的偏见缓解研究。
背景与挑战
背景概述
DH-FaceVid-1K是由Donglin Di等研究人员于2024年推出的一个大规模高质量人脸视频生成数据集,旨在解决生成式人脸视频模型训练中数据稀缺的问题。该数据集由来自20,000多个独特身份的270,043个视频片段组成,总时长超过1,200小时,涵盖了多样化的环境条件和光照场景。特别值得注意的是,该数据集中83%的样本为亚洲人面孔,有效缓解了现有公开数据集中亚洲人脸代表性不足的问题。作为ICCV 2025的官方数据集,DH-FaceVid-1K不仅提供了视频数据,还包括对应的语音音频、面部关键点和文本标注,为人脸视频生成领域的研究提供了重要的基础资源。
当前挑战
在人脸视频生成领域,现有数据集普遍面临规模有限、多样性不足等问题,特别是缺乏具有多民族代表性的高质量数据。DH-FaceVid-1K在构建过程中需要克服数据采集、标注和质量控制等多重挑战。首先,确保大规模视频数据的采集质量和一致性是一项复杂任务,需要设计严格的采集流程和标准。其次,对视频数据进行精准标注(如面部关键点、情感状态等)需要投入大量人力和计算资源。此外,数据集的伦理审查和授权管理也面临挑战,需要建立完善的数据使用协议以防止滥用。这些挑战的解决为构建更公平、更具代表性的人脸视频数据集提供了重要参考。
常用场景
经典使用场景
在计算机视觉领域,高质量人脸视频生成技术正逐渐成为研究热点。DH-FaceVid-1K数据集凭借其大规模、多民族覆盖的特性,为文本到视频、图像到视频等生成任务提供了理想的训练素材。该数据集包含27万条视频样本,涵盖2万多个独特身份,特别注重亚洲人种的平衡性,有效解决了现有数据集中亚洲面孔代表性不足的问题。研究人员可利用这些数据训练生成对抗网络或扩散模型,实现逼真的人脸视频合成。
衍生相关工作
自DH-FaceVid-1K发布以来,已催生多个重要研究方向。在基础模型方面,研究者基于该数据集开发了支持文本驱动的视频生成框架FaceVidGPT;在评估体系领域,衍生出首个针对多民族人脸生成的公平性评测基准FairFaceGen。此外,该数据集还促进了跨模态学习的研究,如音频驱动的人脸动画系统LipSync3D等突破性工作,这些成果均发表在CVPR、ICML等顶级会议上。
数据集最近研究
最新研究方向
在计算机视觉与生成式人工智能领域,DH-FaceVid-1K数据集以其大规模、高质量及多民族覆盖特性,正推动人脸视频生成技术迈向新高度。该数据集包含27万条视频样本、1200小时时长及超过2万个独特身份,尤其填补了亚洲人脸数据在开源领域的空白。当前研究聚焦于三大方向:基于文本/音频驱动的说话人脸生成模型开发、跨种族面部动作迁移的泛化能力优化,以及利用其丰富属性标注(如情绪、光照条件)探索细粒度可控视频生成。数据集构建的基准测试框架,为验证数据规模与模型性能的缩放规律提供了实证基础,对消除生成式AI中的种族偏见具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作