PixVerve-95K

Name: PixVerve-95K
Creator: 浙江大学; 复旦大学; 南京大学; 新加坡国立大学; 清华大学; 南洋理工大学
Published: 2026-05-20 01:35:09
License: 暂无描述

arXiv2026-05-20 更新2026-05-21 收录

下载链接：

https://modelscope.cn/datasets/APRIL6AIGC/PixVerve-95K

下载链接

链接失效反馈

官方服务：

资源简介：

PixVerve-95K是由浙江大学等机构联合构建的首个大规模、高质量超高清文本到图像数据集，旨在将原生图像生成分辨率推升至100兆像素。该数据集包含约9.5万张图像，每张图像像素数均不低于1亿，覆盖多样化场景，并配备了七维度的结构化标注，包括标签列表、边界框坐标、美学分析、实例级描述和长短文本描述。数据集通过精心设计的五阶段自动化流程构建，整合了来自Pexels、Unsplash等平台的高质量真实图像以及通过先进生成模型合成的数据，并经过严格的曝光度、清晰度、平坦度、内容丰富度和美学检测等多轮筛选。该数据集主要应用于推动超高清文本到图像生成领域的研究，旨在解决因缺乏合适训练数据而导致的高分辨率图像生成中结构伪影、细节丢失等核心挑战，为数字电影、沉浸式娱乐等需要极致视觉保真度的应用提供基础支持。

提供机构：

浙江大学; 复旦大学; 南京大学; 新加坡国立大学; 清华大学; 南洋理工大学

创建时间：

2026-05-20

原始信息汇总

数据集概述：PixVerve-95K

数据集名称：PixVerve-95K
发布者：APRIL6AIGC
许可协议：Apache License 2.0
数据规模：
- 数据总量：10.36TB
- 下载次数：60次
更新时间：2026年5月18日（页面显示为“updated May 18,2026”，推测年份为笔误）
数据集来源与访问方式：
- 当前数据集卡片使用默认模板，贡献者未提供详细的描述信息。
- 数据集文件元信息及数据文件，可在页面的“数据集文件”标签页中浏览。
- 下载数据集需要登录，支持以下两种方式：
  1. SDK下载：通过ModelScope SDK进行下载。
  2. GIT下载：通过Git克隆仓库，需确保已正确安装LFS。克隆地址为：https://www.modelscope.cn/datasets/APRIL6AIGC/PixVerve-95K.git。

搜集汇总

数据集介绍

构建方式

PixVerve-95K的构建基于一个精心设计的五阶段自动化数据流水线。首先，从Pexels、Unsplash等高质量摄影平台及现有超高清数据集中收集原始图像，并利用GPT-5.1生成多样化提示词通过Nano Banana Pro合成4K图像，构建约30万张的原始数据池。随后，通过曝光检测、清晰度检测、平坦度检测、内容丰富度检测和美学检测五维度并行净化流程，剔除低质样本。接着，运用基于Qwen-Image的ODTSR超分辨率框架，对候选图像进行2倍或4倍上采样，统一达到100MP像素量级。最后，实施包含拼缝连续性检查、超分一致性验证、区域级和实例级伪影评估的四层滤波，并通过分层标注流水线生成七维精细注释，涵盖视觉评分、标签、边界框、美学分析、实例描述、长描述和短描述。

特点

PixVerve-95K是首个将开源文生图数据集推进至10K分辨率（约100MP）的语料库，包含95,735张高质量图像，平均分辨率达13031×15348像素，远超现有4K级数据集。其核心优势在于多维结构化注释体系，除长短描述外，还提供基础视觉评分、语义标签、目标边界框、六维度美学分析及实例级描述，为细粒度可控生成提供丰富监督信号。数据集覆盖自然、城市、室内、人物、艺术、动植物等多样化场景，宽高比分布均衡，且长描述平均长度达234个词，语义密度与描述粒度显著优于同类资源。此外，数据源兼顾真实摄影与合成数据，通过严格的超分质量保障流程确保微纹理保真度。

使用方法

PixVerve-95K可直接用于训练或微调100MP原生分辨率的文生图模型，支持全注意力潜扩散模型、窗口注意力改造潜扩散模型及像素空间块扩散等多种训练范式。研究者可基于其七维注释实现自适应采样策略，例如利用视觉评分进行数据筛选、利用标签和边界框进行布局约束、利用美学分析引导生成质量。数据集附带PixVerve-Bench基准，包含200张精选图像和涵盖分布一致性、美学质量、纹理粒度、多尺度保真度及语义对齐的八项评估指标，可用于系统评估超高清生成方法。数据及代码已开源，支持学术研究中的非商业用途。

背景与挑战

背景概述

随着成像技术与显示设备的迅猛发展，人类对视觉体验的极致追求推动了超高清图像生成领域的崛起。然而，现有文本到图像模型多聚焦于1K至2K分辨率，面对高达100兆像素的超高清场景时，结构伪影、内容重复与高频细节丧失等问题频现。为弥合这一鸿沟，浙江大学、复旦大学、清华大学等机构的研究人员于2026年联合发布了PixVerve-95K数据集。该数据集首次将开源文本到图像数据推至10K分辨率（即100MP），包含95,735张覆盖多元场景的高质量图像，并附有七维结构化标注。这一开创性工作不仅为超高清图像生成提供了坚实的数据基础，更通过PixVerve-Bench基准构建了系统的评估协议，有力推动了领域内模型训练与评价的标准化进程。

当前挑战

PixVerve-95K所应对的核心挑战在于超高清图像生成的数据稀缺性与语义复杂性。首先，现有数据集分辨率普遍局限于4K，缺乏面向100MP的专用图文语料，且原始图像来源常伴有曝光异常、模糊、纹理缺失等质量缺陷，需经五阶段精细流水线进行严格筛选与超分辨率重构。其次，100MP图像的巨大像素空间与极端语义密度对训练方案的设计构成严峻考验，全注意力机制下的计算开销呈指数级增长，迫使研究者探索窗口注意力改造与像素域分块扩散等新型范式。此外，传统评估指标（如FID、CLIPScore）难以捕捉超高清场景中的细粒度细节与局部伪影，亟需构建多尺度、层次化的新基准以提供可靠反馈。

常用场景

经典使用场景

PixVerve-95K作为首个面向100MP超高清图像生成的大规模开源数据集，其最经典的使用场景在于为文本到图像生成模型提供原生超高分辨率训练的基石。该数据集收录了超过九万五千张像素总数不低于一亿的多样场景图像，并配备了七维精细化标注，包括实例级描述、美学分析、边界框坐标等结构化元数据，从而为研究者提供了前所未有的数据资源。通过该数据集，研究人员能够直接在10K分辨率尺度上微调或训练现有的扩散模型，突破传统1K至4K分辨率的限制，探索模型在极端像素空间中的表现与潜力。

衍生相关工作

围绕PixVerve-95K衍生的经典工作主要集中在三个方面：一是对现有文本到图像基础模型进行原生100MP生成的适配探索，包括全注意力潜在扩散模型的微调、窗口注意力改造的轻量化策略以及基于像素空间的块扩散方法，这些实验路径共同揭示了不同架构在超高清尺度下的可扩展性。二是催生了PixVerve-Bench评估套件，提出了多尺度保真度指数与实例中心一致性分数，为超高清生成领域的系统性评价树立了新标准。三是推动了渐进式训练策略的应用，通过4K至8K再到10K的分级分辨率递进训练，有效缓解了尺度跃迁带来的训练不稳定问题，为未来超高清模型的设计提供了宝贵的指导。

数据集最近研究