monet

Name: monet
Creator: Jasper AI
Published: 2026-05-07 19:54:42
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/jasperai/monet

下载链接

链接失效反馈

官方服务：

资源简介：

MONET（大规模、开放、非冗余且丰富的文本到图像数据集）是一个专为训练文本到图像（T2I）系统而设计的大规模、经过筛选的图像-文本数据集。它包含从9个异构开放源（6个真实和3个合成）中经过安全过滤、基于域的过滤、精确和近重复去除以及多视觉-语言模型重新标注后提取的1.049亿高质量图像-文本对。每张图像都附带预计算的嵌入、结构化注释和预编码的VAE潜在表示，以加速下游使用。数据集支持多种任务，包括文本到图像预训练、图像检索和零样本图像分类。MONET的数据字段包括图像和几何信息、多种来源的标注、嵌入和潜在表示、结构化注释以及质量和安全信号。数据集还提供了详细的用法示例，包括如何加载和过滤数据。

MONET (Massive, Open, Non-redundant, and Enriched Text-to-image dataset) is a large-scale, filtered image-text dataset specifically designed for training text-to-image (T2I) systems. It contains 104.9 million high-quality image-text pairs extracted from 9 heterogeneous open sources (6 real and 3 synthetic) after undergoing safety filtering, domain-based filtering, exact and near-duplicate removal, and re-annotation by multiple vision-language models. Each image comes with pre-computed embeddings, structured annotations, and pre-encoded VAE latent representations to accelerate downstream usage. The dataset supports various tasks, including text-to-image pre-training, image retrieval, and zero-shot image classification. MONETs data fields include image and geometric information, annotations from multiple sources, embeddings and latent representations, structured annotations, as well as quality and safety signals. The dataset also provides detailed usage examples, including how to load and filter the data.

提供机构：

Jasper AI

创建时间：

2026-04-28

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，大规模数据集的构建往往面临噪声冗余与质量参差的挑战。MONET数据集从九个异质开源来源中采集了约29亿对原始图像-文本数据，历经六阶段精细流水线：首先对LAION与COYO两大来源实施基于分辨率和美学得分的预过滤并融合其他来源；随后通过集成三类NSFW分类器进行安全过滤；继而采用URL去重、感知哈希及SSCD近重复检测双重策略去除重复项；最后移除低分辨率、来自特定图库域名及含水印的图像，并运用Florence-2、ShareGPT4V-7B、InternVL3-8B和Gemini-2.5-flash-lite四种视觉语言模型重新生成字幕，同时预计算多种嵌入与结构化标注，最终凝练为1.049亿对高质量图像-文本对。

特点

MONET作为目前最大规模的开源非冗余增强型文本-图像数据集，其核心特点体现在多维度的丰富性。每张图像均附带原始及四种合成字幕，涵盖从简短概念到细致描述的语义层次；预计算的CLIP、DINOv2和SSCD嵌入向量可支撑检索、分类与相似度分析；YOLO目标检测、MediaPipe人脸识别等结构化标注提供了视觉内容的深度解析；美学评分、NSFW得分和水印概率等质量信号便于用户进行精细化过滤。值得注意的是，数据集还包含了预编码的SANA-VAE潜变量，可直接用于潜扩散模型的训练，这种全方位的特征预计算极大地降低了下游研究的计算门槛。

使用方法

研究者可通过HuggingFace Datasets库以流式方式便捷访问MONET数据集。Parquet配置适用于快速浏览与过滤，其中包含缩略图、完整元数据及所有预计算特征，体积约为全分辨率分片的五分之一，是数据探索、检索分析与质量筛选的理想入口，并支持基于字段谓词下推的高效过滤。当需要全分辨率JPEG图像时，可采用WebDataset配置加载tar文件，通过HfFileSystem获取URL列表后，结合WebDataset库即可获得图像、元数据及形态各异的嵌入张量。针对多节点训练场景，内置的节点分割器可实现跨分片的自动分布式加载，同时按来源子目录单独访问特定子集亦简便易行。

背景与挑战

背景概述

MONET（Massive, Open, Non-redundant and Enriched Text-to-image dataset）是由Jasper AI研究团队于近期构建并发布的大规模图文数据集，旨在解决文本到图像生成领域高质量训练数据稀缺且难以复现的瓶颈问题。该数据集从LAION-2B-en、COYO等九个开放数据源中，历经安全过滤、领域过滤、精确与近似去重、多模型重描述等六阶段流水线处理，最终蒸馏出1.049亿对高质量图文样本。MONET的发布标志着文本到图像预训练数据集迈入大规模、高质量、可复现的新阶段，其基于4B参数潜在扩散模型的验证实验证明，仅使用该数据集即可达到具有竞争力的GenEval与DPG分数，显著降低了大规模可复现文本到图像研究的门槛。

当前挑战

MONET所解决的核心领域挑战在于：现有文生图数据集普遍存在质量参差不齐、冗余度高、安全性难以保证、来源单一且可复现性差等问题，制约了模型训练的稳定性和研究进展的可验证性。在构建过程中，团队面临多重严苛挑战：首先，需从29亿原始数据对中高效去除CSAM等不安全内容及各类版权风险图像，部署了Re-LAION-safe限制与三重NSFW分类器联合过滤；其次，需在超百亿规模数据上实现高精度去重，采用URL去重、感知哈希与SSCD近邻检测两阶段策略，在112亿图像中精准移除超2500万冗余样本；此外，还需协调来自六个真实数据源与三个合成数据源的数据格式差异，并统一完成多模型重描述与特征预编码，共计耗费约17.5万GPU小时的计算资源。

常用场景

经典使用场景

MONET数据集最为经典的使用场景在于大规模文本到图像（Text-to-Image, T2I）生成模型的预训练与微调。作为一个包含约1.049亿高质量图文对的庞大数据集，它整合了来自LAION、COYO、Conceptual-12M等六个真实来源以及FLUX.1-schnell、Z-Image等三个合成来源的数据，经过严密的去重、安全过滤与多模型重标注（如Florence-2、InternVL3-8B等），为训练具有高美学质量与语义对齐能力的扩散模型提供了坚实基础。研究人员常利用其预计算的SANA-VAE潜变量与多模态嵌入（CLIP、DINOv2等）直接进行潜扩散训练，大幅降低了数据处理的资源门槛，实现了更为高效、可复现的实验流程。

衍生相关工作

基于MONET数据集已衍生出多项具有影响力的经典工作，最为标志性的是研究者利用其独立训练所得的四亿参数量潜扩散模型，该模型在GenEval与DPG评估中取得了卓越成绩，直接论证了高质量定制化数据集相比于粗放式数据汇聚的显著优势。此外，预计算的FAISS索引结合DESC与DINOv2嵌入促成了交互式图文检索演示空间（如Hugging Face上的monet-retrieval），为低资源场景下的快速原型验证提供了基准平台。同时，该数据集的多源同质化处理流程启发了后续关于数据治理与去偏策略的研究，推动了业界对网络爬取数据中文化、肤色与年龄偏差的系统性评估与缓解方法的探索。

数据集最近研究