X-Omni/LongText-Bench

Name: X-Omni/LongText-Bench
Creator: X-Omni
Published: 2025-08-01 04:34:19
License: 暂无描述

Hugging Face2025-08-01 更新2025-08-09 收录

下载链接：

https://hf-mirror.com/datasets/X-Omni/LongText-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

LongText-Bench是一个专注于评估英文和中文长文本渲染性能的数据集。它包含精心构建的160个提示语，覆盖8个文本丰富的场景。该数据集适用于研究和评估图像生成模型在处理长文本方面的能力。

LongText-Bench is a dataset focused on evaluating the performance of rendering longer texts in both English and Chinese. It includes meticulously constructed 160 prompts across 8 text-rich scenarios. This dataset is suitable for research and evaluation of image generation models capability in handling long texts.

提供机构：

X-Omni

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，评估模型对长文本的渲染能力至关重要。LongText-Bench的构建采用了一种结合自动化与人工审核的严谨流程。研究团队首先定义了八个富含文本的常见场景，如标牌、带标签的物体、印刷材料等。随后，利用GPT-4o为每个场景生成包含短文本与长文本内容的提示词。生成后的提示词经过人工审阅与调整，以确保文本长度分布的均衡性，最终形成了一个包含160个提示词的评测基准，覆盖了中英双语的长文本渲染任务。

特点

该数据集的核心特点在于其专注于长文本渲染的评测，并实现了中英双语覆盖。其提示词经过精心设计，在英语部分，短文本内容长度集中在10至30词，长文本则主要在30至50词区间；中文部分，短文本多为20至40字符，长文本则通常超过60字符。这种结构化的长度分布，使得数据集能够系统性地评估生成模型在不同语言和文本复杂度下的表现。与同类基准相比，LongText-Bench在场景多样性和文本长度范围上具有显著优势。

使用方法

使用LongText-Bench进行评测需遵循明确的流程。首先，依据数据集提供的‘text_prompts.jsonl’等文件中的提示词生成图像，并按照‘{提示词ID}_{重复ID}.png’的格式保存结果，每个提示词建议生成四张图像以确保评估的稳定性。随后，利用项目提供的分布式评估脚本进行自动化评测，用户需根据自身生成结果的存储路径修改脚本中的相关参数。该流程设计兼顾了操作的规范性与灵活性，便于研究者在统一的框架下对比不同模型的性能。

背景与挑战

背景概述

在文本到图像生成领域，长文本渲染能力一直是衡量模型性能的关键维度。X-Omni团队于2025年提出的LongText-Bench数据集，旨在系统评估生成模型在英语和中文长文本渲染任务上的表现。该数据集由研究团队通过自动化流程结合人工审核精心构建，涵盖了标牌、带标签物体、印刷材料、网页、幻灯片、海报、字幕和对话等八类常见文本丰富场景，共计160条提示词。其核心研究问题聚焦于提升生成模型对复杂、冗长文本内容的准确视觉呈现能力，为多模态人工智能的发展提供了重要的基准测试工具。

当前挑战

LongText-Bench所针对的领域挑战在于，现有文本到图像模型在处理包含大量字符或单词的提示时，往往难以保证生成图像中文本内容的完整性、可读性与布局合理性。这涉及模型对语言语义的深度理解及其与视觉结构的对齐能力。在数据集构建过程中，挑战主要体现在如何设计涵盖多样现实场景的提示词，并通过自动化生成与人工校验相结合的方式，确保文本长度在‘短’与‘长’类别间达到平衡分布，同时维持中英文语料在字符数与单词数上的合理统计特性，以构建一个公平、全面的评估基准。

常用场景

经典使用场景

在文本到图像生成领域，长文本渲染一直是技术发展的关键瓶颈。LongText-Bench作为专门评估模型在英语和中文长文本渲染性能的基准数据集，其经典使用场景聚焦于系统性地评测生成模型对复杂文本内容的视觉呈现能力。该数据集通过精心构建的提示词，覆盖了标牌、带标签物体、印刷材料、网页、幻灯片、海报、字幕和对话等八类文本密集型场景，为研究者提供了标准化的测试环境，用以衡量模型在生成包含大量文字信息图像时的准确性与连贯性。

解决学术问题

该数据集的核心价值在于解决了生成式人工智能中一个长期存在的学术难题：如何客观、量化地评估模型对长文本的视觉渲染质量。传统评估方法往往侧重于图像的审美或语义一致性，而缺乏对文本内容本身可读性和准确性的精细度量。LongText-Bench通过引入双语长文本提示和结构化评估框架，为学术界提供了衡量模型文本理解深度与视觉合成能力之间关联的重要工具，推动了该领域从定性描述向定量分析的范式转变，对提升生成模型的实用性和可靠性具有深远意义。

衍生相关工作

围绕LongText-Bench的评估需求，已经催生了一系列重要的相关研究工作。例如，X-Omni项目本身便利用该基准来验证其基于强化学习的自回归图像生成模型的优越性。同时，榜单中列出的Seedream 3.0、GPT-4o、BAGEL、OmniGen2等模型，都将其作为衡量自身长文本渲染性能的关键试金石。这些工作不仅相互竞争，共同提升了技术上限，也促使研究社区更加关注生成模型中文本语义保真度这一核心问题，形成了以基准驱动技术迭代的良性循环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集