DyMesh-XL

Name: DyMesh-XL
Creator: 华中科技大学·人工智能与自动化学院; 达摩院; 湖畔实验室
Published: 2026-04-30 01:27:40
License: 暂无描述

arXiv2026-04-30 更新2026-05-01 收录

下载链接：

https://github.com/JarrentWu1031/AnimateAnyMesh-pp

下载链接

链接失效反馈

官方服务：

资源简介：

DyMesh-XL是由华中科技大学与阿里巴巴达摩院联合构建的大规模动态网格数据集，整合了Objaverse-XL、AMASS等多源数据，包含超过400万段16/32/64帧的动画片段。该数据集通过顶点轨迹提取、运动过滤等严格处理流程，显著提升了类别多样性与运动复杂度。作为4D内容生成的基准数据集，其支持高保真网格动画训练，解决了传统方法因4D数据稀缺导致的时空一致性难题，可广泛应用于VR/AR、游戏开发等领域。

DyMesh-XL is a large-scale dynamic mesh dataset jointly developed by Huazhong University of Science and Technology and Alibaba DAMO Academy. It integrates multi-source datasets including Objaverse-XL, AMASS and others, and contains over 4 million animation clips with lengths of 16, 32, or 64 frames. Through rigorous processing pipelines such as vertex trajectory extraction and motion filtering, this dataset significantly enhances category diversity and motion complexity. As a benchmark dataset for 4D content generation, it supports high-fidelity mesh animation training, resolves the spatial-temporal consistency challenge faced by traditional methods due to the scarcity of 4D data, and can be widely applied in fields such as VR/AR and game development.

提供机构：

华中科技大学·人工智能与自动化学院; 达摩院; 湖畔实验室

创建时间：

2026-04-30

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的概述：

数据集名称

AnimateAnyMesh++

数据集描述

AnimateAnyMesh++ 是一个灵活的四维基础模型，专为高保真度的文本驱动网格动画设计。

所属机构

华中科技大学（HUST）
阿里巴巴集团达摩院（DAMO Academy）

主要功能

支持文本驱动网格动画生成
实现高保真度动画效果
提供灵活的4D建模能力

搜集汇总

数据集介绍

构建方式

DyMesh-XL数据集的构建依托于对多个公开数据源的整合与深度加工，涵盖Objaverse-XL、Objaverse-1.0、AMASS以及DeformingThings4D。首先，从上述来源中提取各类格式（如.fbx、.glb）的动画文件，并将其统一转换为标准化的顶点轨迹与三角网格表示，每个序列被参数化为包含面信息、时间长度与顶点数的动态网格结构。随后，通过重叠时间窗口对序列进行切片，窗口长度覆盖16、32及64帧，并通过保留逆序序列实现数据扩增，使数据量提升至3至4倍。在此基础上，执行严格的运动过滤，剔除最大顶点位移超出阈值或面顶点比例异常的静态或畸形序列，从而确保数据的高质量与运动多样性。最终，利用Qwen-2.5-VL模型为渲染后的动态网格视频生成精确的动作描述文本，完成文本-运动对齐，形成包含超过400万条动态网格片段的大规模数据集。

特点

DyMesh-XL数据集在规模与多样性上实现了显著突破，其独特身份数量从先前的6万跃升至30万，类别覆盖范围与动作多样性随之大幅拓宽。数据集囊括了人物、四足动物、飞行生物、水生生物乃至无生命物体等多种对象类型，动作类型涵盖跳跃、舞蹈、行走、飞翔及旋转等丰富语义。在数据结构上，DyMesh-XL不仅支持16至200帧的灵活序列长度，还针对顶点数进行分层划分，提供4K、8K至50K等多个子集，以适应不同模型训练需求。此外，每条数据均附有由先进视觉语言模型生成的详细运动描述文本，实现了精准的文本-运动对齐，为高保真度、语义控制的网格动画生成奠定了坚实基础。

使用方法

DyMesh-XL数据集专为训练与评估基于前馈范式的文本驱动网格动画模型而设计。使用时，用户可根据顶点数量选择相应子集（如8K顶点以下），并从16、32、64帧三种窗口长度中选取合适的数据切片进行模型训练。数据集提供了清晰的训练、验证与测试划分，用户可直接加载标准化后的顶点轨迹与三角网格数据，并结合配套的动作描述文本，用于端到端学习网格顶点轨迹的条件分布。此外，该数据集支持可变长度序列的训练与生成，通过分块压缩与加权融合策略，在推理阶段可实现任意帧数的动画输出，适用于从单一网格到长序列动画的多样化应用场景。

背景与挑战

背景概述

由华中科技大学与阿里巴巴达摩院于2025年联合创建的DyMesh-XL数据集，旨在解决文本驱动网格动画领域高质量4D训练数据稀缺的核心瓶颈。该数据集整合了Objaverse-XL、AMASS、DeformingThings4D等多源动态网格资源，通过顶点轨迹提取、运动滤波与高质量字幕生成等精细处理流程，构建了超过400万段、帧数覆盖16至64帧的动态网格序列，将唯一身份数量从6万激增至30万。DyMesh-XL的诞生极大丰富了类别与运动多样性，为开发高保真、纹理驱动的网格动画基础模型提供了坚实的数据基石，在计算机视觉与图形学交叉领域催生了AnimateAnyMesh++等开创性工作，显著推动4D内容创作从静态建模迈向动态生成的新范式。

当前挑战

领域层面，DyMesh-XL面临的根本挑战在于4D数据本身在互联网中的天然稀缺性，即便尽取公开可用资源，其规模仍远不及图像或视频数据集，这限制了模型学习复杂时空分布的能力，难以企及如3D生成般的高质量驱动效果。构建过程中，挑战体现为多源异构动画格式的统一转化、非刚性形变的高保真顶点轨迹提取，以及运动过滤中需精准剔除伪影序列。此外，利用主流视觉语言模型为渲染视频生成精确描述时，现有模型在描绘渲染物体动态行为上的欠佳表现，进一步制约了下游文本-运动对齐的能力，亟需更高质量的标注策略。

常用场景

经典使用场景

在虚拟现实、增强现实与数字游戏等沉浸式交互领域中，三维网格动画的自动生成始终是一项核心挑战。DyMesh-XL作为迄今为止规模最为宏大的动态网格数据集，汇聚了来自Objaverse-XL、AMASS、DeformingThings4D等多源异构数据，囊括超过四百万段动态网格序列，覆盖16至64帧丰富时长，其最经典的用途在于支撑端到端、前馈式的文本驱动通用网格动画模型训练。研究者可凭借该数据集学习从文本语义到网格顶点轨迹的条件映射，无需依赖逐实例优化或骨架绑定，即可在数秒内为任意拓扑结构的网格模型赋予语义准确且时间连贯的动态表现。

解决学术问题

长期以来，四维内容生成领域深受高质量时空训练数据匮乏的桎梏，现有方法或依赖耗时极长的逐实例蒸馏优化，或受限于固定序列长度与有限类别，难以兼顾通用性与保真度。DyMesh-XL的提出从根本上缓解了这一瓶颈，其系统性地扩展了动态网格数据的身份规模至三十万，并引入长序列数据与多样化的动作类型，为四维生成研究构建起坚实的数据基石。基于该数据集，研究者得以突破静态网格与固定长度的局限，深入探究时空解耦、局部几何保持与变长序列压缩等核心问题，推动四维内容生成走向通用化与高效化。

衍生相关工作

以DyMesh-XL为数据核心，衍生出多项具有里程碑意义的研究工作。其中最杰出的代表是AnimateAnyMesh++框架，其包含专为动态网格序列设计的变分自编码器DyMeshVAE-Flex，通过幂律拓扑感知注意力与顶点法线注入机制，显著提升了轨迹重建精度与局部几何保持能力。基于DyMesh-XL训练的Shape-Guided Text-to-Trajectory模型，采用修正流扩散策略在压缩隐空间中学习文本条件轨迹分布，实现了变长动画的实时生成。这些工作共同验证了大规模动态网格数据在驱动四维生成基础模型方面的巨大价值，为后续研究开辟了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

DyMesh-XL

数据集名称

数据集描述

所属机构

相关资源

主要功能