LongPrompt-3K, LongT2IBench-14K

github2025-12-10 更新2025-12-11 收录

下载链接：

https://github.com/yzc-ippl/LongT2IBench

下载链接

链接失效反馈

官方服务：

资源简介：

LongPrompt-3K和LongT2IBench-14K是用于评估长文本到图像生成的基准数据集，包含图结构注释。

LongPrompt-3K and LongT2IBench-14K are benchmark datasets for evaluating long text-to-image generation, both of which include graph-structured annotations.

创建时间：

2025-11-10

原始信息汇总

LongT2IBench 数据集概述

数据集基本信息

数据集名称：LongT2IBench
核心功能：一个用于评估长文本到图像生成的基准，包含图结构标注。
相关论文："LongT2IBench: A Benchmark for Evaluating Long Text-to-Image Generation with Graph-structured Annotations"，已被AAAI 2026接收为口头报告。

数据集构成

数据集包含两个主要部分：

LongPrompt-3K
LongT2IBench-14K

数据获取与存放

下载地址：https://pan.baidu.com/s/1Ln0eIJABmBxzqa-bDm-DOw?pwd=j6p6
存放目录：下载的文件需放置在项目根目录下的 data 文件夹内。
目录结构：

data/ |-- imgs |-- split | |-- train.json | |-- test.json | |-- val.json

评估任务

基准支持两种主要的推理任务：

长文本到图像对齐评分
长文本到图像对齐解释

相关模型

预训练模型：LongT2IExpert
模型下载地址：https://pan.baidu.com/s/1Ltj77l31hyBkn6nLtYctnQ?pwd=i8ug
模型存放目录：下载的权重需放置在项目根目录下的 weights 文件夹内。

搜集汇总

数据集介绍

构建方式

在长文本到图像生成领域，数据集的构建需兼顾文本的复杂性与视觉表达的多样性。LongPrompt-3K与LongT2IBench-14K的构建过程采用了系统化的方法，首先通过精心设计的流程收集涵盖多主题的长文本提示，确保语言结构的丰富性。随后，利用先进的文本解析技术，为每个提示生成图结构化的语义标注，以捕捉实体、属性及其关系。在此基础上，结合预训练的图像生成模型，为文本提示生成对应的视觉内容，形成图文配对数据。整个构建过程强调数据的多样性与标注的精确性，为后续的模型评估提供了可靠基础。

特点

该数据集的核心特点在于其独特的图结构化标注体系，能够细致刻画长文本中的语义层次与逻辑关联。LongPrompt-3K包含三千条精心设计的长文本提示，覆盖广泛的主题与场景，语言复杂度显著高于传统短提示。LongT2IBench-14K则进一步扩展了规模，提供了超过一万四千个图文样本，每个样本均配有详细的图结构注释，便于深入分析文本与图像之间的对齐关系。数据集的设计注重真实性与挑战性，旨在推动长文本到图像生成模型在语义理解与视觉保真度方面的进步。

使用方法

使用该数据集时，研究人员可首先通过提供的代码库快速部署评估环境。数据集支持两种主要任务：长文本到图像对齐评分与对齐解释。对于评分任务，用户可利用预训练的LongT2IExpert模型对生成图像与文本提示的匹配程度进行量化评估。对于解释任务，模型能够生成视觉化的对齐分析，帮助理解模型在复杂语义下的表现。数据集文件按标准格式组织，包含训练、验证与测试划分，便于直接用于模型训练与基准测试。

背景与挑战

背景概述

随着生成式人工智能技术的飞速发展，文本到图像生成模型已成为计算机视觉与自然语言处理交叉领域的研究热点。然而，现有模型在处理包含复杂语义结构和长篇幅描述的文本提示时，往往难以准确捕捉并生成符合所有细节要求的图像。为此，西安电子科技大学人工智能学院的研究团队于2025年创建了LongT2IBench基准，并配套发布了LongPrompt-3K与LongT2IBench-14K数据集。该数据集旨在系统评估模型在长文本条件下的图像生成能力，其核心研究问题聚焦于提升生成模型对复杂、多层次文本指令的理解与对齐精度。通过引入图结构标注，该工作为深入分析模型在细粒度属性组合、空间关系及逻辑连贯性等方面的表现提供了重要工具，对推动可控、高保真图像生成技术的发展具有显著影响力。

当前挑战

LongT2IBench数据集致力于解决长文本到图像生成领域的核心挑战，即如何确保生成图像与复杂、冗长的文本描述在语义上实现精确对齐。具体而言，挑战体现在模型需同时理解并整合文本中的多个实体、丰富属性、动态动作以及它们之间的复杂关系，避免出现属性遗漏、关系错位或逻辑矛盾。在数据集构建过程中，研究团队面临的主要挑战包括：如何设计一套系统且可扩展的图结构标注体系，以准确解构长文本的语义层次；如何高效收集与标注大规模、高质量的长文本-图像对，确保数据多样性与真实性；以及如何建立可靠的评估指标，以量化模型在细粒度对齐与整体一致性方面的性能，从而为模型优化提供明确指导。

常用场景

经典使用场景

在文本到图像生成领域，长文本描述因其复杂语义和丰富细节，对现有模型构成显著挑战。LongT2IBench数据集通过提供包含图结构标注的长文本提示及其对应图像，为评估模型在长文本条件下的生成能力奠定了基准。该数据集最经典的使用场景是系统性地评测各类文本到图像生成模型在处理多对象、复杂属性和空间关系时的对齐性能，研究者可借助其结构化标注，量化分析模型在语义理解与视觉合成方面的精确度。

衍生相关工作

围绕LongT2IBench数据集，已衍生出一系列专注于长文本生成评估的经典研究工作。其中，LongT2IExpert作为配套的预训练模型，不仅实现了长文本对齐评分与解释生成，还为后续研究提供了强大的基线系统。这些工作进一步探索了图神经网络在语义解析中的应用、多模态对齐机制的优化，以及生成模型在复杂提示下的稳健性改进，共同推动了长文本到图像生成领域的算法创新与理论深化。

数据集最近研究