StructEditBench, StructT2IBench

github2025-10-07 更新2025-10-09 收录

下载链接：

https://github.com/zhuole1025/Structured-Visuals

下载链接

链接失效反馈

官方服务：

资源简介：

StructBench评估图像生成和编辑模型在结构化视觉内容上的表现，包括图表、图解、数学图形、表格、图形和谜题等。StructEditBench包含1,714个编辑示例和32,031个问答对；StructT2IBench包含1,714个文本到图像示例和37,941个问答对。数据集涵盖数学、图形、图表、谜题、科学和表格等类别。

StructBench evaluates the performance of image generation and editing models on structured visual content, including charts, diagrams, mathematical graphics, tables, graphs, and puzzles. StructEditBench comprises 1,714 editing examples and 32,031 question-answer pairs; StructT2IBench contains 1,714 text-to-image examples and 37,941 question-answer pairs. The dataset covers categories such as mathematics, graphics, charts, puzzles, scientific content, and tables.

创建时间：

2025-10-07

原始信息汇总

StructBench 数据集概述

数据集基本信息

数据集名称

StructBench（结构化视觉基准）

核心组成

StructEditBench：1,714个编辑示例，包含32,031个问答对
StructT2IBench：1,714个文生图示例，包含37,941个问答对

数据集地址

StructEditBench：https://huggingface.co/datasets/hshjerry0315/StructEditBench
StructT2IBench：https://huggingface.co/datasets/hshjerry0315/StructT2IBench

数据集用途

评估目标

评估图像生成和编辑模型在结构化视觉内容上的性能

覆盖类别

数学图表（Math）
图形（Graph）
图表（Chart）
谜题（Puzzle）
科学图表（Science）
表格（Table）

数据集结构

必需字段

qa_list：问答字典列表，包含：
- question（字符串）：关于图像的问题
- answer或ground_truth_answer（字符串）：正确答案
- label（字符串）："editing"（修改区域）或"maintain"（未改变区域）
category（字符串）：类别标签
{prefix}{model_name}（PIL.Image）：模型生成的图像

可选字段

source_image（PIL.Image）：编辑任务的原图

评估指标

准确率计算

最终准确率 = 0.9 × 编辑准确率 + 0.1 × 保持准确率

评估方法

StructScore：使用视觉语言模型（GPT-5或Qwen2.5-VL-72B）的多轮问答评估指标

使用方式

快速开始

加载基准数据集
添加模型输出
运行评估

支持模型

GPT-5评估
Qwen2.5-VL评估

输出结果

处理后的数据集

{model_name}_list：问答结果列表
{model_name}_accuracy：加权准确率
{model_name}_editing_accuracy：编辑问题准确率
{model_name}_maintain_accuracy：保持问题准确率

分析文件

包含全局准确率、分组准确率和样本统计信息

排行榜提交

必需指标

StructEditBench：各类别准确率、总体准确率、PSNR
StructT2IBench：各类别准确率、总体准确率

提交方式

通过电子邮件提交分析文件和模型详情

引用信息

如需在研究中使用StructBench，请引用相关论文

搜集汇总

数据集介绍

构建方式

在结构化视觉内容生成与编辑的研究领域，StructEditBench和StructT2IBench通过系统化流程构建了专业评估基准。数据集涵盖数学公式、图表、图形、谜题、科学图示及表格六类结构化视觉内容，采用人工标注与自动化验证相结合的方式构建了高质量问答对。StructEditBench包含1,714个编辑样本与32,031组问答数据，StructT2IBench则提供1,714个文本到图像生成样本与37,941组问答数据，每个样本均经过多轮视觉语言模型验证确保标注准确性。

特点

该数据集体系最显著的特征在于其针对结构化视觉内容的专业评估维度。通过精心设计的双标签机制，将问答对区分为编辑区域与保持区域两类，并采用0.9:0.1的加权计算方式准确反映模型性能。数据集覆盖六种专业领域视觉内容，每个类别均保持均衡的样本分布，确保评估结果的全面性与代表性。独特的StructScore评估指标通过多轮问答实现对生成图像事实一致性的精细度量，为结构化视觉内容的生成与编辑研究提供了可靠的性能基准。

使用方法

研究者可通过Hugging Face平台直接加载数据集进行评估工作。使用流程包括三个核心环节：首先通过load_dataset函数载入基准数据，随后利用自定义模型函数生成对应图像并添加到数据集中，最后通过集成工具运行自动化评估。评估系统支持GPT-5与Qwen2.5-VL两种视觉语言模型，用户可根据需求选择不同配置参数。评估完成后系统将生成详细的性能分析报告，包含全局准确率、分类别准确率及样本统计等信息，支持研究者系统分析模型在结构化视觉内容生成与编辑任务中的表现。

背景与挑战

背景概述

随着生成式人工智能技术的蓬勃发展，图像生成与编辑模型在艺术创作和视觉内容合成领域取得了显著进展。然而，这些模型在处理具有严格结构化特征的视觉内容时，如数学公式图表、科学示意图和数据可视化图形，往往难以保持内容的准确性与逻辑一致性。StructEditBench与StructT2IBench数据集应运而生，由研究团队于2025年提出，聚焦于结构化视觉内容的生成与编辑任务。该数据集涵盖六大类别——数学图形、图表、科学图示、表格、关系网络与逻辑谜题，通过构建包含数万问答对的大规模评估基准，为衡量模型在结构化场景下的事实一致性提供了重要工具。

当前挑战

结构化图像生成领域面临的核心挑战在于模型需同时兼顾视觉美观与内容精确性。具体而言，生成模型必须准确呈现数据关系、保持符号系统的语义一致性，并在编辑过程中维护未修改区域的结构完整性。数据集构建过程中，研究者需要解决多轮问答标注的复杂性，确保每个样本的编辑区域与维持区域能被精确标识。此外，评估体系的设计需平衡不同类别样本的权重，并通过加权准确率机制（90%编辑准确率与10%维持准确率）客观反映模型性能，这对标注质量与评估方法的科学性提出了更高要求。

常用场景

经典使用场景

在结构化视觉内容生成领域，StructEditBench与StructT2IBench作为基准测试工具，主要应用于评估图像生成与编辑模型对图表、数学图形、科学示意图等结构化视觉元素的语义保持能力。通过构建包含数学公式、数据图表、逻辑谜题等六类专业场景的测试集，该数据集能够系统检验生成模型在保持视觉元素语义一致性方面的表现，为多模态大模型在结构化内容生成领域的性能评估提供标准化范本。

解决学术问题

该数据集有效解决了生成式模型在结构化视觉内容创作中存在的语义失真问题。通过引入基于视觉语言模型的多轮问答评估机制StructScore，量化了生成图像在关键区域编辑与背景保持两个维度的准确性，为衡量模型的事实性保持能力提供了可复现的评估标准。这一创新填补了传统图像质量评估指标在语义一致性度量方面的空白，推动了生成式人工智能在科学可视化、教育材料制作等领域的可靠应用。

衍生相关工作

基于该数据集衍生的研究工作主要集中在多模态评估方法的创新与扩展。众多研究者依托其评估框架开发了针对特定领域的增强版本，如医疗影像注解系统、工程图纸生成模型等。该数据集建立的加权评估机制已被多个后续研究采纳为基准评价标准，其提出的编辑区域与保持区域区分评估理念，更推动了视觉事实性评估领域新范式的形成，为后续结构化视觉生成研究提供了重要的方法论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集