ViMoGen-228K

Hugging Face2025-12-18 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/wruisi/ViMoGen-228K

下载链接

链接失效反馈

官方服务：

资源简介：

ViMoGen-228K是一个大规模的人类运动生成数据集，包含228,000个高质量的运动样本。该数据集整合了高保真光学动作捕捉数据、网络视频中的语义标注运动以及由先进视频生成模型生成的合成样本，提供了文本-运动对和文本-视频-运动三元组，极大地扩展了语义多样性。数据集以JSON格式组织，包含统一的注释文件和按数据类型划分的附加注释文件。每个条目包含唯一标识符、数据子集、分割信息、运动文本注释、视频文本注释、运动数据文件路径和可选的视频文件路径。运动数据文件是PyTorch序列化的字典，包含运动特征、相机外参和内参矩阵。

创建时间：

2025-12-17

原始信息汇总

ViMoGen-228K 数据集概述

数据集基本信息

数据集名称：ViMoGen-228K
许可证：Apache-2.0
主要语言：英语
标签：human-motion-generation
数据规模：100K<n<1M

数据集简介

ViMoGen-228K 是一个大规模、高质量的人体运动生成数据集，包含 228,000 个运动样本。该数据集旨在解决现有 3D 人体运动生成模型在泛化能力上的瓶颈，通过整合来自视频生成领域的知识来增强运动生成的语义多样性。数据集包含文本-运动对以及文本-视频-运动三元组。

数据来源与构成

数据集由三个子集构成，通过配置 arkitscenes_base 进行组织：

Optical MoCap：来自高保真光学运动捕捉数据。
In-the-Wild Video：来自网络视频的语义标注运动。
Synthetic Video：由最先进的视频生成模型生成的合成样本。

对应的数据文件为：

optical_mocap_data.json
in_the_wild_video_data.json
synthetic_video_data.json

此外，还提供一个统一的标注文件 ViMoGen-228K.json。

数据格式

数据集以 JSON 格式组织。每个数据条目包含以下字段：

id：样本的唯一标识符。
subset：样本所属子集，取值为 "Optical MoCap"、"In-the-Wild Video" 或 "Synthetic Video"。
split：与 subset 值相同，对于 "Optical MoCap" 样本则指定原始光学动作捕捉数据源。
motion_text_annot（可选）：描述运动的简洁文本标注。
video_text_annot：运动描述的详细扩展版本。
motion_path：运动数据文件（.pt）的路径，相对于数据集根目录。
video_path（可选）：对应视频文件（.mp4）的路径，相对于数据集根目录，仅出现在 "Synthetic Video" 和 "In-the-Wild Video" 子集的样本中。

运动数据结构

运动数据文件（.pt）是 PyTorch 序列化的字典，包含以下字段：

motion：形状为 [#frames, 426] 的张量，表示每帧的运动特征。
extrinsic：形状为 [#frames, 9] 的张量，表示每帧的相机外参。
intrinsic：形状为 [3, 3] 的张量，表示相机内参矩阵。所有张量均存储为 PyTorch Tensor 对象。

评估基准

训练后，可使用 MBench 基准对模型进行评估。该基准用于对运动质量、提示保真度和泛化能力进行细粒度评估。评估结果可上传至 MBench Leaderboard。

引用

如需使用本数据集，请引用相关论文： bib @article{lin2025quest, title={The Quest for Generalizable Motion Generation: Data, Model, and Evaluation}, author={Lin, Jing and Wang, Ruisi and Lu, Junzhe and Huang, Ziqi and Song, Guorui and Zeng, Ailing and Liu, Xian and Wei, Chen and Yin, Wanqi and Sun, Qingping and others}, journal={arXiv preprint arXiv:2510.26794}, year={2025} }

搜集汇总

数据集介绍

构建方式

在三维人体运动生成领域，现有模型普遍面临泛化能力不足的挑战。为突破这一瓶颈，ViMoGen-228K数据集通过整合多源异构数据构建而成。其核心策略是将高保真的光学运动捕捉数据与来自网络视频的语义标注运动，以及由前沿视频生成模型合成的样本进行系统性融合。该数据集最终汇集了二十二万八千个高质量运动样本，不仅包含文本-运动对，还扩展至文本-视频-运动三元组，从而在语义多样性和数据规模上实现了显著提升。

特点

ViMoGen-228K数据集的一个突出特点是其多层次的数据构成。它明确划分为“光学动捕”、“野外视频”和“合成视频”三个子集，分别对应不同保真度与语义丰富度的数据来源。每个样本均以结构化JSON格式组织，并关联至包含运动特征、相机外参和内参矩阵的PyTorch张量文件。这种设计既保留了高精度动捕数据的细节，又引入了来自真实世界视频和生成模型的广泛语义场景，为模型学习复杂、多样的运动模式提供了坚实基础。

使用方法

使用ViMoGen-228K数据集时，研究者可通过Hugging Face平台便捷加载。数据集提供了统一的标注文件以及按数据源划分的子集文件，用户可根据研究需求选择加载特定类型的数据。每个样本条目均包含唯一标识符、所属子集、文本描述以及指向具体运动数据和视频文件的路径。加载后，运动数据可直接用于训练如ViMoGen等基于流匹配的扩散变换器模型。训练完成的模型可进一步在配套的MBench分层基准上进行评估，以全面衡量其在运动质量、提示词忠实度和泛化能力等方面的表现。

背景与挑战

背景概述

三维人体运动生成作为计算机视觉与图形学交叉的前沿领域，长期致力于从文本描述中合成逼真且多样的人体动作序列。尽管已有基准数据集推动了模型性能的提升，但现有方法在泛化能力上遭遇显著瓶颈，难以应对开放场景中复杂的语义与动作变化。为突破这一局限，研究团队于2025年提出了ViMoGen-228K数据集，该数据集由光学动作捕捉数据、网络视频标注数据以及视频生成模型合成的数据构成，共计22.8万个高质量样本，旨在通过跨模态知识迁移，为运动生成模型提供更丰富的语义多样性与数据规模，从而推动该领域向更高层次的通用性迈进。

当前挑战

在运动生成领域，核心挑战在于模型对未见过的文本描述或复杂动作的泛化能力不足，现有数据集往往局限于有限的动作类别与语义范围，导致生成结果缺乏多样性与真实性。ViMoGen-228K的构建过程同样面临多重挑战：首先，整合多源异构数据（如高精度光学捕捉、网络视频与合成数据）需解决数据格式、质量与标注一致性的对齐问题；其次，确保大规模数据中动作与文本描述的语义匹配度，并维持动作的物理合理性与时空连续性，对数据处理流程提出了极高要求。这些挑战共同指向了构建通用化运动生成系统的核心难点。

常用场景

经典使用场景

在三维人体运动生成领域，ViMoGen-228K数据集为模型训练提供了关键支持。该数据集整合了高精度光学运动捕捉数据、网络视频语义标注以及合成视频样本，构建了大规模的文本-运动对与文本-视频-运动三元组。经典使用场景集中于训练基于扩散变换器的生成模型，如ViMoGen框架，通过门控多模态条件机制，统一运动捕捉与视频生成的先验知识，从而提升模型在多样化语义描述下的运动生成能力。

实际应用

在实际应用中，ViMoGen-228K数据集支撑了虚拟角色动画、人机交互仿真以及增强现实体验的开发。例如，在游戏与影视制作中，该数据集可用于生成符合自然语言指令的逼真人体动作，简化动画制作流程。在机器人训练领域，它提供了多样化的运动模式参考，助力机器人学习人类行为。同时，其合成视频样本也为运动分析与行为理解提供了可扩展的测试环境。

衍生相关工作

围绕ViMoGen-228K数据集，衍生了一系列经典研究工作。核心框架ViMoGen提出了基于流匹配的扩散变换器，实现了运动捕捉与视频生成知识的有效融合。其轻量化变体ViMoGen-light进一步优化了效率，降低了视频生成的依赖。此外，配套的MBench分层评估基准为运动质量、提示保真度与泛化能力提供了细粒度评测标准，推动了领域内模型性能的标准化比较与持续改进。

以上内容由遇见数据集搜集并总结生成