LeX-10K

github2025-03-28 更新2025-03-29 收录

下载链接：

https://github.com/zhaoshitian/LeX-Art

下载链接

链接失效反馈

官方服务：

资源简介：

LeX-10K是一个包含10K高分辨率（1024×1024）美学精炼图像的数据集，用于增强文本到图像的生成。

LeX-10K is a dataset consisting of 10K high-resolution (1024×1024) aesthetically refined images, designed for enhancing text-to-image generation.

创建时间：

2025-03-10

原始信息汇总

LeX-Art 数据集概述

基本信息

数据集名称: LeX-Art
官方仓库: https://github.com/zhaoshitian/LeX-Art
论文链接: https://arxiv.org/pdf/2503.21749
项目主页: https://zhaoshitian.github.io/lexart/

关键组件

LeX-10K数据集
- 包含10,000张高分辨率（1024×1024）美学优化图像
- 用于文本到图像生成的高质量数据
LeX-Enhancer
- 140亿参数提示优化器
- 用于增强文本到图像生成的提示
文本到图像模型
- LeX-FLUX (120亿参数)
- LeX-Lumina (20亿参数)
评估基准与指标
- LeX-Bench评估基准
- Pairwise Normalized Edit Distance (PNED) 文本准确性评估指标

性能表现

LeX-Lumina在CreateBench上实现79.81% PNED增益
LeX-FLUX在以下方面优于基线模型：
- 色彩准确性 (+3.18%)
- 位置准确性 (+4.45%)
- 字体准确性 (+3.81%)

开源资源

模型:
- LeX-Enhancer
- LeX-Lumina
数据:
- LeX-10K
- LeX-Bench

引用信息

BibTeX @article{zhao2025lexart, title={LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis}, author={Zhao, Shitian and Wu, Qilong and Li, Xinyue and Zhang, Bo and Li, Ming and Qin, Qi and Liu, Dongyang and Zhang, Kaipeng and Li, Hongsheng and Qiao, Yu and Gao, Peng and Fu, Bin and Li, Zhen}, journal={arXiv preprint arXiv:2503.21749}, year={2025} }

搜集汇总

数据集介绍

构建方式

在文本生成与图像渲染的交叉领域，LeX-10K数据集的构建体现了系统性创新。研究团队通过LeX-Art框架整合多模态生成技术，采用14B参数的LeX-Enhancer模型对原始提示词进行语义增强，随后基于扩散模型生成1024×1024分辨率的高清图像。数据筛选过程严格遵循美学标准与文本准确性双重指标，最终形成包含一万张精细化样本的标准化数据集，每张图像均实现视觉美感与文本内容的和谐统一。

使用方法

研究者可通过HuggingFace平台直接加载数据集进行模型微调或生成任务评估。配套提供的LeX-Lumina与LeX-FLUX预训练模型支持端到端文本图像生成，用户只需输入自然语言提示词即可获得包含精准文本元素的图像输出。针对特定研究需求，数据集可配合LeX-Bench评估体系进行生成质量的多维度量化分析，其中PNED指标专门用于衡量文本渲染的几何精度与语义准确性。技术文档详细说明了不同分辨率下的数据预处理流程与模型输入输出规范。

背景与挑战

背景概述

LeX-10K数据集由Zhao Shitian等研究人员于2025年提出，作为LeX-Art框架的核心组成部分，旨在解决文本到图像生成领域中文本保真度与美学融合的平衡问题。该数据集包含10,000张高分辨率（1024×1024）且经过美学优化的图像，为训练先进的文本生成模型提供了高质量数据支持。LeX-10K的创建标志着文本渲染技术在生成对抗网络（GAN）和扩散模型领域的重大突破，其通过系统性数据合成方法显著提升了生成文本的视觉准确性和艺术表现力，为后续研究如LeX-FLUX和LeX-Lumina模型的开发奠定了数据基础。

当前挑战

在文本到图像生成领域，LeX-10K致力于解决三大核心挑战：文本渲染的几何精度、字体风格一致性以及多语言支持的泛化能力。数据构建过程中，研究团队需克服高分辨率图像合成时的计算资源消耗问题，确保文本区域在复杂背景下的可读性，同时维持艺术风格多样性。此外，标注过程中如何量化评估文本与图像的语义对齐度，以及平衡生成效率与输出质量之间的权衡，均为数据集构建的关键技术难点。这些挑战直接推动了后续PNED评估指标及LeX-Bench基准的诞生。

常用场景

经典使用场景

在文本到图像生成领域，LeX-10K数据集以其高分辨率（1024×1024）和美学优化的特性，成为研究文本渲染保真度与视觉美学的关键资源。该数据集广泛应用于训练和评估文本生成模型，特别是在需要精确控制文本样式、颜色和布局的场景中。通过提供丰富多样的文本-图像配对样本，LeX-10K为研究人员探索文本与视觉元素的和谐融合提供了坚实基础。

解决学术问题

LeX-10K数据集有效解决了文本生成领域中文本保真度与美学平衡的难题。传统方法往往难以兼顾文本的准确性和视觉吸引力，而该数据集通过高质量样本支持了新型算法的开发，显著提升了文本位置、颜色和字体准确性。其引入的PNED指标为量化评估文本生成质量提供了科学依据，推动了该领域研究范式的进步。

实际应用

在实际应用中，LeX-10K数据集支撑的模型可广泛应用于广告设计、数字内容创作和教育材料生成等领域。例如，在广告行业，基于该数据集训练的模型能够自动生成品牌标识清晰、视觉吸引力强的宣传素材；在教育领域，则可快速制作图文并茂的教学资料，显著提升内容生产效率和质量。

数据集最近研究