ViMoGen-228K
收藏ViMoGen-228K 数据集概述
数据集基本信息
- 数据集名称:ViMoGen-228K
- 许可证:Apache-2.0
- 主要语言:英语
- 标签:human-motion-generation
- 数据规模:100K<n<1M
数据集简介
ViMoGen-228K 是一个大规模、高质量的人体运动生成数据集,包含 228,000 个运动样本。该数据集旨在解决现有 3D 人体运动生成模型在泛化能力上的瓶颈,通过整合来自视频生成领域的知识来增强运动生成的语义多样性。数据集包含文本-运动对以及文本-视频-运动三元组。
数据来源与构成
数据集由三个子集构成,通过配置 arkitscenes_base 进行组织:
- Optical MoCap:来自高保真光学运动捕捉数据。
- In-the-Wild Video:来自网络视频的语义标注运动。
- Synthetic Video:由最先进的视频生成模型生成的合成样本。
对应的数据文件为:
optical_mocap_data.jsonin_the_wild_video_data.jsonsynthetic_video_data.json
此外,还提供一个统一的标注文件 ViMoGen-228K.json。
数据格式
数据集以 JSON 格式组织。每个数据条目包含以下字段:
id:样本的唯一标识符。subset:样本所属子集,取值为 "Optical MoCap"、"In-the-Wild Video" 或 "Synthetic Video"。split:与subset值相同,对于 "Optical MoCap" 样本则指定原始光学动作捕捉数据源。motion_text_annot(可选):描述运动的简洁文本标注。video_text_annot:运动描述的详细扩展版本。motion_path:运动数据文件(.pt)的路径,相对于数据集根目录。video_path(可选):对应视频文件(.mp4)的路径,相对于数据集根目录,仅出现在 "Synthetic Video" 和 "In-the-Wild Video" 子集的样本中。
运动数据结构
运动数据文件(.pt)是 PyTorch 序列化的字典,包含以下字段:
motion:形状为[#frames, 426]的张量,表示每帧的运动特征。extrinsic:形状为[#frames, 9]的张量,表示每帧的相机外参。intrinsic:形状为[3, 3]的张量,表示相机内参矩阵。 所有张量均存储为 PyTorchTensor对象。
评估基准
训练后,可使用 MBench 基准对模型进行评估。该基准用于对运动质量、提示保真度和泛化能力进行细粒度评估。评估结果可上传至 MBench Leaderboard。
相关资源
- 代码仓库:https://github.com/oneScotch/ViMoGen
- 论文:https://arxiv.org/abs/2511.13719
- 评估排行榜:https://huggingface.co/spaces/wruisi/MBench_leaderboard
- 评估基准代码:https://github.com/oneScotch/ViMoGen/tree/main/MBench
引用
如需使用本数据集,请引用相关论文: bib @article{lin2025quest, title={The Quest for Generalizable Motion Generation: Data, Model, and Evaluation}, author={Lin, Jing and Wang, Ruisi and Lu, Junzhe and Huang, Ziqi and Song, Guorui and Zeng, Ailing and Liu, Xian and Wei, Chen and Yin, Wanqi and Sun, Qingping and others}, journal={arXiv preprint arXiv:2510.26794}, year={2025} }




