PixVerve-95K

github2026-05-20 更新2026-05-21 收录

下载链接：

https://github.com/HaojunChen663/PixVerve-95K

下载链接

链接失效反馈

官方服务：

资源简介：

PixVerve-95K是第一个大规模、高质量的文本到图像数据集，旨在将图像分辨率提升至100MP。通过五阶段自动数据流水线，该数据集包含了95,735张100MP图像，并提供了细粒度的注释（5种元数据和2种全面描述），直接支持训练。

创建时间：

2026-05-07

原始信息汇总

数据集概述：PixVerve-95K

简介 PixVerve-95K 是一个大规模、高质量的文本到图像（T2I）数据集，旨在将图像分辨率推进至 100MP（1亿像素）。该数据集通过自动化的五阶段数据流水线构建，包含 95,735 张 100MP 图像，并配有细粒度标注（5 种元数据和 2 种综合描述），可直接用于训练或微调高分辨率 T2I 模型。

发布信息

论文发布在 arXiv（2026.05.20）。
项目页面位于 PixVerve 项目页。
数据集及基准（Benchmark）已在 Hugging Face 和 ModelScope 上发布：
- Hugging Face：PixVerve-Bench
- ModelScope：PixVerve-95K 数据集

核心亮点

首个大规模 100MP T2I 数据集：通过自动化五阶段数据流水线，筛选并标注了 95,735 张 100MP 图像。
原生 100MP 图像生成探索：基于该数据集，扩展了现有 T2I 基础模型（包括潜在扩散模型和像素扩散模型），提出了三种不同的训练方案。
系统化评估基准：构建了名为 PixVerve-Bench 的评估协议，包含传统指标和基于多模态大模型（MLLM）的评估。

数据集构建

数据流水线包含五个自动化阶段（详情见 README 中的数据流水线示意图）。
图像统计分布信息（详情见 README 中的数据统计分布图）。

作者与机构

来自浙江大学（1）、复旦大学（2）、南京大学（3）、新加坡国立大学（4）、清华大学（5）和南洋理工大学（6）。
完整作者列表包括 Haojun Chen、Haoyang He、Chengming Xu 等。

后续更新计划

✅ 已发布：GitHub 仓库、arXiv 论文、PixVerve-95K 数据集、PixVerve-Bench 基准及评估代码。
⬜ 待发布：推理代码、训练代码、模型检查点。

引用如果此工作对您有帮助，请引用其论文（见 README 中的 BibTeX 格式）。

搜集汇总

数据集介绍

构建方式

PixVerve-95K作为首个推动文本到图像生成至100MP超高分辨率的大规模高质量数据集，其构建依赖于一个精心设计的五阶段自动化数据流水线。该流水线从海量图像源中筛选、处理并生成95,735张分辨率高达100MP的图像，同时为每张图像提供了细粒度的标注信息，涵盖5种元数据类型和2类综合描述文本。这一流程集成了先进的图像超分辨率、质量评估及内容理解技术，确保了数据的高保真度与语义丰富性，为超高分辨率图像生成模型的训练奠定了坚实基础。

特点

PixVerve-95K的核心特色在于其前所未有的规模与分辨率，成为首个面向100MP原生图像生成的高质量数据集。数据集不仅包含了近十万张超高分辨率图像，还配备了详尽的细粒度注释，包括多种元数据与全面描述性文本，极大地丰富了语义信息层次。其数据统计分布广泛覆盖多类别场景，支持对潜在扩散模型与像素扩散模型等现有T2I基础模型的扩展训练，为超高分辨率生成任务提供了系统化的洞察与突破性方向。

使用方法

使用PixVerve-95K时，研究人员可将其直接应用于训练或微调现有的文本到图像生成模型，以探索原生100MP图像的生成能力。数据集已在Hugging Face和ModelScope平台公开提供，支持加载并使用其中的图像与标注信息。结合配套的PixVerve-Bench评估基准，用户可通过包括传统指标与多模态大语言模型评估在内的系统化协议，对模型在超高分辨率下的生成质量进行层次化评测。相关源代码与预训练模型也将陆续开放，便于复现与扩展研究。

背景与挑战

背景概述

在文本到图像生成领域，尽管现有模型已能产出令人惊叹的低分辨率图像，然而迈向超高清（UHR）乃至亿级像素（100MP）的原生生成仍是一片充满挑战的荒芜之地。为填补这一空白，由浙江大学、复旦大学、南京大学、新加坡国立大学、清华大学及南洋理工大学等顶尖机构的研究人员（Haojun Chen、Haoyang He、Chengming Xu等）于2026年共同构建了PixVerve-95K数据集。该数据集以推动原生UHR图像生成为核心使命，通过精心设计的五阶段自动化数据流水线，首次大规模地提供了95735张100MP级高清图像，并附带了五种元数据与两条详尽的文本描述，为高分辨率T2I模型的训练与微调奠定了坚实的数据基石，在相关领域内具有开创性的里程碑意义。

当前挑战

PixVerve-95K数据集所面临的挑战主要源于其探索的前沿领域。在领域问题层面，核心挑战在于突破现有T2I模型在分辨率上的性能瓶颈，实现从低分辨率到亿级像素的原生生成跨越，这要求模型在保持精细纹理与语义一致性的同时，应对指数级增长的像素规模与计算负担。在构建过程中，挑战同样严峻：如何从海量互联网图像中自动筛选并确保100MP级别的高质量样本，避免低分辨率插值或噪声污染；如何设计高效的数据清洗与标注流水线，以平衡自动化流程的速度与标注的准确性，确保每张图像都拥有精准的元数据与丰富细致的文本描述；此外，构建一套涵盖传统指标与多模态大模型评估的分层评价协议（PixVerve-Bench），以公正衡量超高分辨率图像生成的质量，亦是亟待解决的难题。

常用场景

经典使用场景

在超高分辨率图像生成领域，PixVerve-95K数据集以其破百万像素（100MP）的图像规模与精细注释，成为推动原生高分辨率文本到图像（T2I）生成研究的核心基准。该数据集广泛应用于训练和微调潜扩散模型与像素扩散模型，研究者借助其五阶段自动化管道产出的高质量数据，探索从低分辨率生成向原生高分辨率生成的范式跨越，特别是在生成具有丰富纹理细节和语义一致性的巨幅图像场景中展现出不可替代的价值。

实际应用

在实际应用层面，PixVerve-95K驱动的原生100MP图像生成技术可直接赋能数字艺术创作、影视级视觉特效制作、高精度印刷出版及超大尺寸广告牌设计等行业，显著降低从文本描述到高保真巨幅图像的制作门槛。此外，在遥感影像解译、数字孪生城市构建与医学影像超分辨率重建等依赖极致空间细节的领域中，该数据集训练的模型能够一次性生成全局一致且局部精细的视觉内容，规避传统拼接式生成带来的伪影问题，展现出广阔的应用前景。

衍生相关工作

PixVerve-95K数据集的发布催生了一系列相关研究进展，例如延伸了UltraHR-100K、ArtiMuse等高质量图像资源在高分辨率场景下的利用范式，并推动了Diffusers框架中对原生超高分辨率生成流水线的扩展开发。围绕其提出的多种训练策略，后续工作进一步探索了在FLUX.2、L2P等新型扩散架构上的适配与优化，同时Qwen等多模态大模型被广泛用于PixVerve-Bench的自动评估。该数据集作为首个系统攻克100MP原生T2I难题的基石，持续激发着从数据构建、模型设计到评估体系的全链路创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集