StructEval

Name: StructEval
Creator: 滑铁卢大学、多伦多大学、香港科技大学、上海大学、独立贡献者、向量研究所
Published: 2025-05-26 23:40:42
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://tiger-ai-lab.github.io/StructEval/

下载链接

链接失效反馈

官方服务：

资源简介：

StructEval 是一个全面的基准测试数据集，旨在评估大型语言模型（LLMs）生成结构化输出的能力。数据集包含 2035 个示例，涵盖了 44 种独特的结构化生成任务，跨越 18 种结构化输出格式。数据集分为两个主要子集：StructEval-T 和 StructEval-V。StructEval-T 评估 LLM 直接从自然语言提示生成结构化输出的能力，而 StructEval-V 则评估 LLM 生成可执行代码以实现指定视觉要求的能力。数据集的设计旨在推动 LLM 在结构化输出生成方面的进步，这对于软件开发、数据管道、用户界面生成和科学出版等领域的实际应用至关重要。

StructEval is a comprehensive benchmark dataset designed to evaluate the ability of large language models (LLMs) to generate structured outputs. It contains 2,035 examples, covering 44 unique structured generation tasks and spanning 18 types of structured output formats. The dataset is divided into two primary subsets: StructEval-T and StructEval-V. StructEval-T evaluates the ability of LLMs to generate structured outputs directly from natural language prompts, while StructEval-V assesses LLMs' capacity to generate executable code to meet specified visual requirements. The dataset is engineered to drive advancements in structured output generation for LLMs, which is critical for practical applications in fields such as software development, data pipelines, user interface generation, and scientific publishing.

提供机构：

滑铁卢大学、多伦多大学、香港科技大学、上海大学、独立贡献者、向量研究所

创建时间：

2025-05-26

原始信息汇总

StructEval 数据集概述

数据集简介

名称: StructEval
目的: 评估大语言模型(LLM)生成结构化输出的能力
特点: 包含不可渲染(JSON, YAML, CSV)和可渲染(HTML, React, SVG)结构化格式
评估范式:
- 生成任务(从自然语言提示生成结构化输出)
- 转换任务(在结构化格式之间转换)

数据集组成

总样本数: 2,035
任务类型: 44种
支持格式: 18种

主要子集

📝 StructEval-T

格式: JSON, XML, YAML, CSV, TOML
任务: 19个(5生成, 14转换)
样本数: 950
重点: 语法有效性和结构正确性

🎨 StructEval-V

格式: HTML, React, SVG, LaTeX, Mermaid等
任务: 25个(13生成, 12转换)
样本数: 1,085
重点: 通过VQA评估视觉正确性

评估框架

核心指标

Render Score (T/V): 二进制指标(0或1)，表示生成的代码是否能成功加载或渲染
Syntax Score (T): 验证结构正确性，计算为满足的点路径规则的百分比
Keyword Matching (V): 评估所需关键词的存在，计算为在原始生成代码中找到的关键词百分比
VQA Score (V): 通过问答对评估渲染内容的视觉正确性，计算为满足的Q&A对百分比

分数聚合方法

🎨 可渲染格式

Final Score = (0.2 × Render Score) + (0.1 × Keyword Matching) + (0.7 × VQA Score)

📝 不可渲染格式

Final Score = (0.2 × Render Score) + (0.8 × Syntax Score)

关键发现

性能差距: 最先进模型GPT-4o平均得分仅76.02%，最佳开源模型(Qwen3-4B)为67.04%
任务难度: 生成任务比转换任务更具挑战性，视觉渲染(StructEval-V)比纯文本结构(StructEval-T)更难
困难格式: Text→TOML(35.8%)、Text→Mermaid(18.9%)和Matplotlib→TikZ(28.4%)转换特别困难
饱和任务: JSON、HTML、CSV生成和YAML→JSON、React→HTML转换表现接近完美(>90%)

引用

bibtex @misc{yang2025structeval, title={StructEval: Benchmarking LLMs Capabilities to Generate Structural Outputs}, author={Jialin Yang and Dongfu Jiang and Lipeng He and Sherman Siu and Yuxuan Zhang and Disen Liao and Zhuofeng Li and Huaye Zeng and Yiming Jia and Haozhe Wang and Benjamin Schneider and Chi Ruan and Wentao Ma and Zhiheng Lyu and Yifei Wang and Yi Lu and Quy Duc Do and Ziyan Jiang and Ping Nie and Wenhu Chen}, year={2025}, eprint={2505.20139}, archivePrefix={arXiv}, primaryClass={cs.SE}, doi={10.48550/arXiv.2505.20139} }

搜集汇总

数据集介绍

构建方式

StructEval数据集通过多阶段标注流程构建，涵盖18种结构化输出格式和44种任务类型。首先，研究团队识别了广泛的生成和转换任务，覆盖文本和视觉格式。随后，利用大型语言模型合成初始示例池，包括任务查询和关联评估指标。最后，通过两轮专家评审确保数据质量，使用LabelStudio工具进行标注，最终形成2035个经过精心筛选的示例。

特点

StructEval数据集以其多样性和全面性著称，包含非可渲染（如JSON、YAML）和可渲染（如HTML、React）结构化格式。数据集分为StructEval-T和StructEval-V两个子集，分别评估文本结构和视觉渲染能力。每个示例平均包含14.7个关键词和8.5个视觉问答对，支持对模型能力的细粒度评估。此外，数据集涵盖了从常见格式到专业领域格式（如Typst、Mermaid）的广泛范围。

使用方法

使用StructEval数据集时，首先将问题输入大型语言模型，要求模型在特定标记间输出结构化内容。对于StructEval-V子集，解析的输出会发送到渲染引擎生成视觉结果。评估采用自动流程，包括语法检查、关键词匹配和视觉问答评分。语法分数验证输出结构有效性，关键词匹配分数评估预期结构元素的出现，视觉问答分数则专门用于评估可渲染任务的视觉保真度。最终任务分数是这些指标的加权组合，权重根据任务类型调整。

背景与挑战

背景概述

StructEval数据集由滑铁卢大学、多伦多大学等机构的研究团队于2025年提出，旨在系统评估大语言模型生成结构化输出的能力。该基准涵盖18种结构化格式（包括JSON、YAML等非可渲染格式和HTML、SVG等可渲染格式），通过生成任务（自然语言到结构化输出）和转换任务（格式间转换）两种范式，创新性地引入语法有效性检查、关键词匹配和视觉问答等多维度评估指标。作为首个全面评估结构化输出生成能力的基准，StructEval填补了现有评测体系在格式多样性、自动化评估和复杂结构转换方面的空白，对软件工程、数据科学等领域具有重要实践意义。

当前挑战

StructEval面临的挑战主要体现在三个方面：在领域问题层面，现有模型对复杂格式（如TOML、Mermaid）的结构保真度不足，最佳商用模型平均得分仅75.58；在构建过程中，需克服跨领域高质量标注的难题，包括18种格式的专家知识整合与2000余个样本的视觉问答对标注；在技术实现上，需设计统一评估框架以兼容文本结构的语法验证与可视化输出的渲染检测，这涉及多语言解释器与可视化工具的复杂集成。

常用场景

经典使用场景

StructEval数据集在评估大型语言模型（LLMs）生成结构化输出能力方面具有经典使用场景。该数据集通过系统化的生成任务和转换任务，全面测试模型在非可渲染（如JSON、YAML、CSV）和可渲染（如HTML、React、SVG）结构化格式上的表现。研究人员利用StructEval的多样化任务和格式覆盖，能够深入分析模型在不同结构化输出生成中的优缺点，特别是在格式遵循和结构正确性方面的表现。

衍生相关工作

StructEval的发布催生了一系列相关研究工作。在评估方法方面，有研究基于其评估框架开发了更细粒度的结构化输出评分系统。在模型优化领域，部分工作利用该数据集的反馈信号来改进模型的结构化输出生成能力。此外，一些扩展性研究将StructEval的任务类型扩展到更多领域专用格式，如生物信息学中的特定数据格式，进一步丰富了结构化输出评估的生态。

数据集最近研究