five

HumanVid|视频动画数据集|3D建模数据集

收藏
arXiv2024-07-28 更新2024-09-09 收录
视频动画
3D建模
下载链接:
https://github.com/zhenzhiwang/HumanVid
下载链接
链接失效反馈
资源简介:
HumanVid 是一项创新的大规模高质量数据集,专为人类图像动画而设计,它通过结合精心挑选的现实世界视频和合成数据,为视频和电影制作领域带来了突破性的工具。该数据集的特点是它不仅包含了20,000个以人为中心的1080P分辨率视频,而且通过2D姿态估计器和基于SLAM的方法实现了人体和摄像机运动的精确注释。此外,HumanVid还集成了2,300个无版权的3D头像资产,通过创新的基于规则的摄像机轨迹系统,极大地丰富了训练数据中摄像机运动的多样性。
提供机构:
香港中文大学、上海市人工智能实验室
创建时间:
2024-07-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
HumanVid数据集的构建结合了精心筛选的真实世界视频和合成数据。真实世界数据部分,从互联网上收集了大量视频,并通过严格的筛选规则确保视频质量,最终形成了包含20K个高分辨率(1080P)以人为中心的视频集合。同时,利用2D姿态估计器和基于SLAM的方法进行人体和相机运动的标注。合成数据部分,收集了10K个3D角色资产,并利用现有的身体形状、皮肤纹理和服装资产进行扩展。特别地,引入了一种基于规则的相机轨迹生成方法,使得合成数据能够包含多样且精确的相机运动标注,这在真实世界数据中是难以获得的。
使用方法
HumanVid数据集主要用于训练和评估可控的人体图像动画模型。使用该数据集时,研究人员可以利用其提供的真实世界和合成视频数据,结合精确的相机和人体运动标注,训练模型以生成高质量且可控的人体视频。具体使用方法包括下载数据集中的视频和标注文件,利用这些数据进行模型训练,并通过数据集提供的基准模型进行性能评估。数据集的详细使用说明和代码可在项目网站上找到。
背景与挑战
背景概述
HumanVid数据集由香港中文大学、上海人工智能实验室和香港大学共同创建,旨在解决人像动画生成中的关键问题。该数据集于2024年发布,主要研究人员包括Zhenzhi Wang、Yixuan Li等。HumanVid是首个大规模高质量的人像动画数据集,结合了真实世界和合成数据,特别关注视频中的相机运动,这对于视频和电影制作具有潜在的重大影响。数据集的构建过程中,研究人员通过精心设计的过滤规则确保了视频质量,并使用SLAM方法和2D姿态估计算法进行人体和相机运动的标注,从而实现了对视频生成的高质量控制。
当前挑战
HumanVid数据集面临的挑战主要包括两个方面:一是缺乏高质量的公开数据集,现有的数据集如TikTok和UBC-Fashion在规模和质量上存在局限,阻碍了公平和透明的评估;二是现有方法主要依赖2D人体运动,忽视了视频中相机运动的重要性,导致视频生成控制能力有限。在构建过程中,研究人员遇到了视频质量保证、相机运动精确标注等技术难题,以及合成数据多样性和真实感的平衡问题。
常用场景
经典使用场景
HumanVid数据集的经典使用场景在于训练可控的人体图像动画模型。通过结合真实世界和合成数据,该数据集能够生成高质量、高分辨率的人体视频,并支持用户对摄像机运动和人体姿态的精确控制。这种控制能力在电影制作、虚拟现实和游戏开发等领域具有广泛的应用前景。
解决学术问题
HumanVid数据集解决了人体图像动画领域中缺乏高质量公开数据集的问题。传统方法依赖于私有数据集,导致公平和透明的基准测试受限。此外,现有方法往往忽视摄像机运动在视频中的重要性,导致视频生成控制能力有限且不稳定。HumanVid通过提供大规模、高质量的数据集,显著提升了人体图像动画的控制精度和视频质量。
实际应用
HumanVid数据集在实际应用中具有广泛的前景,特别是在电影制作、虚拟现实和游戏开发等领域。通过该数据集训练的模型能够生成高质量、可控的人体视频,极大地简化了电影特效制作和虚拟角色的动画生成过程。此外,该数据集还可用于开发更逼真的虚拟现实体验和增强现实应用。
数据集最近研究
最新研究方向
在人像动画领域,HumanVid数据集的最新研究方向聚焦于通过结合真实世界和合成数据,实现高质量且可控的人像视频生成。该数据集不仅解决了现有方法依赖私有数据集的问题,还强调了摄像机运动在视频生成中的重要性。通过引入基于规则的摄像机轨迹生成方法,HumanVid能够提供多样且精确的摄像机运动注释,这在真实世界数据中是难以获得的。研究者们正在利用这一数据集开发基线模型CamAnimate,该模型在训练过程中同时考虑了人像和摄像机运动,从而在控制人像姿态和摄像机运动方面达到了最先进的性能。这一研究方向不仅推动了视频和电影制作技术的发展,还为该领域的透明和全面评估设立了新的基准。
相关研究论文
  • 1
    香港中文大学、上海市人工智能实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

NEPSE Open Data

首个尼泊尔证券交易所(NEPSE)的开源金融数据集,旨在提高尼泊尔资本市场的透明度、学习和创新。

github 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录

FLIR Dataset

该数据集主要提供三种类型的热成像图像:训练集包含8862张热成像图像,验证集包含1366张热成像图像,视频集包含4224张热成像图像。这些图像被用于训练YOLOv3检测器,并在验证集上报告了mAP。视频集用于跟踪检测到的对象。

github 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录