five

HumanVid|视频动画数据集|3D建模数据集

收藏
arXiv2024-07-28 更新2024-09-09 收录
视频动画
3D建模
下载链接:
https://github.com/zhenzhiwang/HumanVid
下载链接
链接失效反馈
资源简介:
HumanVid 是一项创新的大规模高质量数据集,专为人类图像动画而设计,它通过结合精心挑选的现实世界视频和合成数据,为视频和电影制作领域带来了突破性的工具。该数据集的特点是它不仅包含了20,000个以人为中心的1080P分辨率视频,而且通过2D姿态估计器和基于SLAM的方法实现了人体和摄像机运动的精确注释。此外,HumanVid还集成了2,300个无版权的3D头像资产,通过创新的基于规则的摄像机轨迹系统,极大地丰富了训练数据中摄像机运动的多样性。
提供机构:
香港中文大学、上海市人工智能实验室
创建时间:
2024-07-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
HumanVid数据集的构建结合了精心筛选的真实世界视频和合成数据。真实世界数据部分,从互联网上收集了大量视频,并通过严格的筛选规则确保视频质量,最终形成了包含20K个高分辨率(1080P)以人为中心的视频集合。同时,利用2D姿态估计器和基于SLAM的方法进行人体和相机运动的标注。合成数据部分,收集了10K个3D角色资产,并利用现有的身体形状、皮肤纹理和服装资产进行扩展。特别地,引入了一种基于规则的相机轨迹生成方法,使得合成数据能够包含多样且精确的相机运动标注,这在真实世界数据中是难以获得的。
使用方法
HumanVid数据集主要用于训练和评估可控的人体图像动画模型。使用该数据集时,研究人员可以利用其提供的真实世界和合成视频数据,结合精确的相机和人体运动标注,训练模型以生成高质量且可控的人体视频。具体使用方法包括下载数据集中的视频和标注文件,利用这些数据进行模型训练,并通过数据集提供的基准模型进行性能评估。数据集的详细使用说明和代码可在项目网站上找到。
背景与挑战
背景概述
HumanVid数据集由香港中文大学、上海人工智能实验室和香港大学共同创建,旨在解决人像动画生成中的关键问题。该数据集于2024年发布,主要研究人员包括Zhenzhi Wang、Yixuan Li等。HumanVid是首个大规模高质量的人像动画数据集,结合了真实世界和合成数据,特别关注视频中的相机运动,这对于视频和电影制作具有潜在的重大影响。数据集的构建过程中,研究人员通过精心设计的过滤规则确保了视频质量,并使用SLAM方法和2D姿态估计算法进行人体和相机运动的标注,从而实现了对视频生成的高质量控制。
当前挑战
HumanVid数据集面临的挑战主要包括两个方面:一是缺乏高质量的公开数据集,现有的数据集如TikTok和UBC-Fashion在规模和质量上存在局限,阻碍了公平和透明的评估;二是现有方法主要依赖2D人体运动,忽视了视频中相机运动的重要性,导致视频生成控制能力有限。在构建过程中,研究人员遇到了视频质量保证、相机运动精确标注等技术难题,以及合成数据多样性和真实感的平衡问题。
常用场景
经典使用场景
HumanVid数据集的经典使用场景在于训练可控的人体图像动画模型。通过结合真实世界和合成数据,该数据集能够生成高质量、高分辨率的人体视频,并支持用户对摄像机运动和人体姿态的精确控制。这种控制能力在电影制作、虚拟现实和游戏开发等领域具有广泛的应用前景。
解决学术问题
HumanVid数据集解决了人体图像动画领域中缺乏高质量公开数据集的问题。传统方法依赖于私有数据集,导致公平和透明的基准测试受限。此外,现有方法往往忽视摄像机运动在视频中的重要性,导致视频生成控制能力有限且不稳定。HumanVid通过提供大规模、高质量的数据集,显著提升了人体图像动画的控制精度和视频质量。
实际应用
HumanVid数据集在实际应用中具有广泛的前景,特别是在电影制作、虚拟现实和游戏开发等领域。通过该数据集训练的模型能够生成高质量、可控的人体视频,极大地简化了电影特效制作和虚拟角色的动画生成过程。此外,该数据集还可用于开发更逼真的虚拟现实体验和增强现实应用。
数据集最近研究
最新研究方向
在人像动画领域,HumanVid数据集的最新研究方向聚焦于通过结合真实世界和合成数据,实现高质量且可控的人像视频生成。该数据集不仅解决了现有方法依赖私有数据集的问题,还强调了摄像机运动在视频生成中的重要性。通过引入基于规则的摄像机轨迹生成方法,HumanVid能够提供多样且精确的摄像机运动注释,这在真实世界数据中是难以获得的。研究者们正在利用这一数据集开发基线模型CamAnimate,该模型在训练过程中同时考虑了人像和摄像机运动,从而在控制人像姿态和摄像机运动方面达到了最先进的性能。这一研究方向不仅推动了视频和电影制作技术的发展,还为该领域的透明和全面评估设立了新的基准。
相关研究论文
  • 1
    香港中文大学、上海市人工智能实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录