Gen3C-pt

Hugging Face2025-12-04 更新2025-12-05 收录

下载链接：

https://huggingface.co/datasets/jrguo/Gen3C-pt

下载链接

链接失效反馈

官方服务：

资源简介：

Cosmos-Tokenize1 是一套用于图像和视频的视觉标记器，提供多种压缩率同时保持高质量的重建效果。该模型适用于基于扩散和自回归模型的图像和视频生成，可作为高效构建模块。模型包括连续型（C）和离散型（D）两种类型，每种类型又有图像（I）和视频（V）变体。连续型标记器将视觉数据编码为连续潜在嵌入，适用于从连续分布中采样的模型；离散型标记器则将视觉数据编码为离散潜在代码，映射为量化索引，适用于通过交叉熵损失优化的模型，如GPT模型。该模型已准备好用于商业用途。

创建时间：

2025-12-04

原始信息汇总

数据集概述

基本信息

数据集名称: Cosmos-Tokenize1
发布者: NVIDIA
库标识: cosmos
标签: nvidia, cosmos
访问方式: 需接受许可协议后访问（Gated）

许可信息

许可证名称: NVIDIA Open Model License
许可证链接: https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license
关键条款:
- 模型可用于商业用途。
- 用户可以自由创建和分发衍生模型。
- NVIDIA 不声明对使用模型或其衍生模型生成的任何输出拥有所有权。
- 若绕过、禁用、降低效能或规避模型中的任何技术限制、安全护栏、加密、安全、数字版权管理或身份验证机制，则根据本协议授予的权利将自动终止。

模型描述

Cosmos-Tokenize1 是一个用于图像和视频的视觉分词器套件，可在保持高重建质量的同时提供多种压缩率。该模型可作为基于扩散和自回归的图像与视频生成模型的有效且高效的构建模块，并已准备好用于商业用途。

模型类型与变体

分词器分为两种类型：连续型 和 离散型，每种类型均有图像和视频变体。

类型	连续型	离散型
图像	Cosmos-Tokenizer-CI	Cosmos-Tokenizer-DI
视频	Cosmos-Tokenizer-CV	Cosmos-Tokenizer-DV

模型版本列表

该套件包含以下具体分词器模型：

连续型分词器
- Cosmos-Tokenize1-CI8x8-360p (8x8空间压缩，360p及以上)
- Cosmos-Tokenize1-CI16x16-360p (16x16空间压缩，360p及以上)
- Cosmos-Tokenize1-CV4x8x8-360p (4x时间压缩，8x8空间压缩，360p及以上，49帧上下文)
- Cosmos-Tokenize1-CV8x8x8-720p (8x时间压缩，8x8空间压缩，720p及以上，121帧上下文)
离散型分词器
- Cosmos-Tokenize1-DI8x8-360p (8x8空间压缩，360p及以上)
- Cosmos-Tokenize1-DI16x16-360p (16x16空间压缩，360p及以上)
- Cosmos-Tokenize1-DV4x8x8-360p (4x时间压缩，8x8空间压缩，360p及以上，49帧上下文)
- Cosmos-Tokenize1-DV8x16x16-720p (8x时间压缩，16x16空间压缩，720p及以上，49帧上下文)

模型架构与规格

架构特点: 轻量级、计算高效、具有时间因果设计，采用因果时间卷积和因果时间注意力层。
编码器/解码器: 对称结构，编码器始于2级Haar小波变换层（在空间和时间维度下采样4倍），解码器终于逆小波变换。
潜在空间建模:
- 连续型分词器：采用普通自编码器公式。
- 离散型分词器：采用有限标量化作为潜在空间量化器。

输入/输出规格

编码器

输入:
- 类型: 图像或视频
- 格式: RGB
- 属性:
  - 分辨率: 最小256px（短边），最大支持至4K。
  - 视频长度: 对于1080p视频最长支持8秒（受A100 80G GPU内存限制；更高分辨率支持时长更短）。
输出:
- 类型: 词元
- 属性: 维度为16的连续值特征向量。

解码器

输入:
- 类型: 词元
- 属性: 维度为16的连续值特征向量。
输出:
- 类型: 图像或视频（与输入类型匹配）
- 格式: RGB
- 属性:
  - 分辨率: 与输入分辨率相同。
  - 视频长度: 与输入视频长度相同。

软件与硬件要求

运行时引擎: Cosmos-Predict1 (https://github.com/nvidia-cosmos/cosmos-predict1)
支持的硬件微架构:
- NVIDIA Ampere (例如 A100)
- NVIDIA Hopper (例如 H100)
注意: 仅在Ampere和Hopper GPU上使用BF16精度进行过测试。使用旧版NVIDIA GPU可能需要切换至FP32精度。
操作系统: Linux（未在其他操作系统上测试）。

评估结果

分词性能比较（在DAVIS视频基准数据集上）

分词器	压缩比	高度	帧数	量化方式	PSNR (DAVIS)	SSIM (DAVIS)	rFVD (DAVIS)
CogVideoX	4×4×4	-	-	VAE	31.74	0.860	19.58
OmniTokenizer	4×8×8	-	-	VAE	29.04	0.710	117.66
Cosmos-Tokenizer-CV	4×8×8	720	49	AE	35.28	0.890	15.93
Cosmos-Tokenizer-CV	8×8×8	720	49	AE	34.10	0.850	30.16
Cosmos-Tokenizer-CV	8×8×8	720	121	AE	34.32	0.867	23.49
Cosmos-Tokenizer-CV	8×16×16	720	49	AE	32.55	0.770	93.82

运行时比较（在单个A100 80GB GPU上）

分词器	分辨率	压缩比	参数量	时间 (ms)
CogVideoX	720x1280	4×8×8	216M	414
OmniTokenizer	720x1280	4×8×8	54M	82.9
Cosmos-Tokenizer-CV	720x1280	4×8×8	105M	34.8

相关资源

项目主页: https://huggingface.co/collections/nvidia/cosmos-tokenize1-67d354326c497d65d5cf7ee9
代码仓库: https://github.com/nvidia-cosmos/cosmos-predict1
论文: https://arxiv.org/abs/2501.03575
论文网站: https://research.nvidia.com/labs/dir/cosmos-predict1
架构图: https://cdn-uploads.huggingface.co/production/uploads/638fb8cf2380ffd99caf8c2a/gQH5n9iCEtqZc7uutUwdL.jpeg

搜集汇总

数据集介绍

构建方式

在视觉生成模型领域，高效且保真的视觉数据表示是核心技术挑战。Gen3C-pt数据集作为Cosmos-Tokenize1模型套件的组成部分，其构建依托于一套精心设计的编码器-解码器架构。该架构采用对称设计，编码器起始于两级哈尔小波变换，实现了时空维度的同步下采样；解码器则以逆变换收尾，确保了重建的精确性。针对连续与离散两种表征需求，构建过程分别采用了自编码器框架与有限标量化技术，从而生成了适用于扩散模型与自回归模型的不同类型视觉令牌。

特点

该数据集的核心特征在于其多模态与多压缩率的统一设计。它提供了连续与离散两种视觉令牌化范式，分别对应潜在扩散模型与自回归Transformer的输入需求，覆盖了图像与视频两种模态。在技术指标上，数据集支持从360p至4K的分辨率范围，并实现了高达8倍的时间压缩与16倍的空间压缩，同时在DAVIS等基准测试中展现了卓越的重建质量与计算效率。其轻量化的因果时序结构设计，确保了在保持高保真度的同时，实现了显著优于同类方法的处理速度。

使用方法

使用该数据集需依托其配套的推理引擎Cosmos-Predict1，并在兼容的NVIDIA计算硬件上运行。用户可将RGB格式的图像或视频输入编码器，获得维度为16的连续特征向量作为令牌表示；解码器则可将这些令牌重建为原始分辨率的视觉数据。在实际应用中，开发者需注意输入数据的分辨率与时长限制，并严格遵守NVIDIA开放模型许可协议中关于商业使用、衍生模型创建及安全护栏的相关条款，以确保合规且负责任地集成到各类生成式AI应用中。

背景与挑战

背景概述

Gen3C-pt作为NVIDIA Cosmos项目的重要组成部分，其核心研究问题聚焦于视觉数据的有效压缩与表示学习。该数据集依托于Cosmos-Tokenize1系列模型，旨在为图像与视频生成任务提供高质量的连续或离散潜在表征。NVIDIA作为全球领先的计算技术公司，在2025年初发布了这一系列模型，标志着视觉生成模型在高效编码与重建质量平衡方面的最新进展。通过引入轻量级且计算高效的架构，该数据集不仅支持高分辨率视频的长时间序列处理，还通过因果时间卷积与注意力机制确保了时序一致性，为后续的扩散模型与自回归模型奠定了坚实的视觉基础。

当前挑战

在视觉生成领域，高保真度重建与高效压缩之间的权衡构成了核心挑战。Gen3C-pt需在保持视频时空连贯性的同时，实现高达8倍的时间压缩与16倍的空间压缩，这对模型架构设计提出了严峻考验。构建过程中，团队面临多模态数据对齐的复杂性，需确保统一网络架构同时适用于图像与视频的编码。此外，量化离散化过程中信息损失的抑制、长序列视频的内存约束，以及在不同硬件架构上的性能优化，均是数据集开发中亟待解决的技术难题。

常用场景

经典使用场景

在视觉生成模型的研究与开发中，高效且高质量的视觉数据表示是核心挑战之一。Gen3C-pt（即Cosmos-Tokenize1-CV8x8x8-720p）作为一套先进的连续视频分词器，其经典使用场景在于为扩散模型和自回归模型构建视觉潜在表示。该模型通过8倍时间压缩与8x8空间压缩，将高分辨率视频序列编码为低维连续嵌入，在保持高重建质量的同时显著降低了计算与存储开销，为后续的生成、编辑或理解任务提供了结构化的特征基础。

解决学术问题

该数据集解决了视觉表示学习领域的关键问题，即如何在高度压缩的潜在空间中保持视频的时空一致性及细节保真度。通过引入因果时间卷积与注意力机制，模型确保了时间顺序的保持，而基于小波变换的对称编解码架构则优化了多尺度特征提取。这为研究高效视频压缩、生成模型的潜在空间建模以及跨模态对齐提供了可靠的实验基准，推动了视觉tokenizer设计从离散到连续、从图像到视频的统一框架演进。

衍生相关工作

基于Cosmos-Tokenize1系列，研究社区已衍生出多项经典工作。例如，其连续与离散分词器的设计思想被后续研究扩展至多模态联合表示学习，推动了统一视觉-语言模型的发展。在生成模型领域，该分词器作为基础模块被集成于如Cosmos-Predict1等预测框架中，用于长视频生成与编辑任务。同时，其采用的有限标量化（FSQ）技术也为离散表示学习提供了新的优化路径，启发了后续在高效量化与码本学习方面的创新探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集