jasperai/monet

Name: jasperai/monet
Creator: jasperai
Published: 2026-05-07 11:54:42
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/jasperai/monet

下载链接

链接失效反馈

官方服务：

资源简介：

MONET（大规模、开放、非冗余和丰富的文本到图像数据集）是一个专为训练文本到图像（T2I）系统而设计的大规模、经过筛选的图像-文本数据集。它包含从九个异构开放源（6个真实源和3个合成源）的29亿原始对中通过多阶段安全过滤、基于域的过滤、精确和近似重复去除以及使用多个视觉语言模型重新标注而得到的1.049亿高质量图像-文本对，并进一步通过合成生成的样本进行增强。每张图像都附有预计算的嵌入、结构化注释和预编码的VAE潜在表示，以加速下游使用。

MONET (Massive, Open, Non-redundant and Enriched Text-to-image dataset) is a large-scale, curated image-text dataset designed for training text-to-image (T2I) systems. It contains 104.9 million high-quality image-text pairs distilled from 2.9 billion raw pairs across nine heterogeneous open sources (6 real and 3 synthetic) through successive stages of safety filtering, domain-based filtering, exact and near-duplicate removal, and re-captioning with multiple vision-language models, and is further augmented with synthetically generated samples. Each image is released with pre-computed embeddings, structured annotations and pre-encoded VAE latents to accelerate downstream use.

提供机构：

jasperai

搜集汇总

数据集介绍

构建方式

MONET（Massive, Open, Non-redundant and Enriched Text-to-image dataset）是一个大规模、精心筛选的多模态图像-文本数据集，旨在为文本到图像生成系统的训练提供高质量数据。该数据集从九个异质来源（包含六个真实来源与三个合成来源）的29亿原始图像-文本对出发，经过一系列递进式筛选流程构建而成。具体而言，首先对LAION与COYO两大来源执行基于分辨率与美学评分的预过滤；随后通过三分类器集成进行安全过滤；接着运用URL去重、感知哈希与SSCD近重复检测相结合的两阶段去重策略；再实施基于领域与来源治理的过滤；最后，利用多种视觉语言模型对每张图像进行重新标注，并预计算多种嵌入向量与结构化标注信息。此外，还基于筛选后的数据生成合成样本以扩充数据集规模。整个构建过程累计消耗约17.5万GPU小时，最终产出包含约1.049亿高质量图像-文本对的数据集。

使用方法

MONET数据集以parquet与webdataset两种配置形式发布在HuggingFace平台上，以适应不同的使用场景。对于数据浏览、过滤、检索与分析等非全分辨率图像需求，推荐使用parquet配置，其包含384像素的缩略图以及所有元数据字段、嵌入向量和VAE潜变量，大小仅为全分辨率分片的约五分之一，可通过HuggingFace Datasets库以流式方式高效加载，并支持基于Parquet谓词下推的源头筛选与质量过滤。如需全分辨率JPEG图像进行模型训练，则应使用webdataset配置中的tar分片文件，通过WebDataset库与HuggingFace文件系统进行高效读取。对于大规模训练场景，用户可利用wds.split_by_node实现多节点分布式数据加载。由于MONET以单一训练集合形式发布，建议用户自行划分验证集与测试集，并注意避免与下游评估基准的污染。

背景与挑战

背景概述

MONET（Massive, Open, Non-redundant and Enriched Text-to-image dataset）是由Jasper AI等机构于近年创建的大规模图像-文本数据集，旨在解决文本到图像（T2I）生成模型训练中数据质量参差不齐、冗余度高、来源单一等问题。该数据集从LAION-2B-en、COYO、Common-Catalog-CC-BY等九个开放数据源中，经过安全过滤、去重、美学评分、重新标注等多阶段精细筛选，最终汇聚了1.049亿对高质量图像-文本样本。每个样本还提供了由多种视觉语言模型生成的描述文本以及预计算的特征嵌入和编码，极大降低了T2I研究的门槛。基于MONET训练的四亿参数潜在扩散模型在GenEval和DPG评测上取得了有竞争力的成绩，彰显了该数据集在推动大规模、可复现T2I研究方面的重要影响力。

当前挑战

MONET数据集致力于应对文本到图像生成领域的多项关键挑战。首先，在领域问题层面，现有大规模图像-文本数据集常存在低质量、不安全内容、重度冗余和来源偏差，导致模型训练不稳定且性能受限；MONET通过构建包含安全筛选、逐源与跨源去重（URL、pHash及SSCD近重复检测）及美学过滤的六阶段管道，有效提升了数据纯净度与代表性，从而为T2I模型提供更可靠的训练原料。其次，在构建过程中，团队面临从29亿原始对中高效提取优质样本的挑战，需平衡计算成本与数据质量；最终消耗约17.5万GPU小时完成重新标注（占比79%）、域过滤（14%）等环节，并利用预计算嵌入（如CLIP、DINOv2）和VAE潜在表示来加速下游模型训练，开创性地实现了高可复现性与便利性。

常用场景

经典使用场景

在文本到图像生成领域，MONET数据集被广泛用作大规模预训练的核心语料库。该数据集汇聚了来自九个异构开放来源的超过一亿条高质量图像-文本对，经过严格的安全过滤、去重与多模型重标注，为训练诸如潜在扩散模型等生成式架构提供了丰沛且纯净的训练素材。研究者常利用其预编码的SANA-VAE潜变量表示，直接开展高效的潜在空间扩散训练，从而在GenEval和DPG等基准测试中取得具有竞争力的成绩，显著降低了可复现文本到图像研究的门槛。

解决学术问题

MONET数据集着力解决了大规模图像-文本语料库构建中多年悬而未决的顽疾，包括数据冗余度高、安全性与质量参差不齐、以及标注信息匮乏等问题。其通过渐进式精炼流程，从数十亿原始数据对中剔除低分辨率、低美感评分、有害内容以及近乎重复的样本，并引入多个视觉语言模型生成从简洁概念到精细细节的多层次描述。这一体系为后续研究树立了数据筛选与增强的新范式，推动了生成模型在图像保真度、文本对齐度与内容多样性等方面的系统性进步。

实际应用

在实际应用层面，MONET数据集凭借其丰富的元数据与预计算嵌入向量，极大简化了工业级图像生成系统的部署流程。企业可利用其存储的CLIP、DINOv2与SSCD特征，快速搭建图像检索与零样本分类服务；借助预计算的美学评分、NSFW分数与水印检测信号，开发者能够灵活定制内容审核管线，确保生成内容合规安全。此外，该数据集内建的多源合成样本，为产品级文生图模型在风格多样性、概念覆盖度等方面的迭代验证提供了坚实的数据基础。

数据集最近研究