vTikZ

Name: vTikZ
Creator: Univ Rennes, Inria, IRISA, INSA Rennes, France
Published: 2025-05-07 16:26:54
License: 暂无描述

arXiv2025-05-07 更新2025-05-10 收录

下载链接：

https://huggingface.co/datasets/CharlyR/vtikz

下载链接

链接失效反馈

官方服务：

资源简介：

vTikZ数据集是一个专门用于评估大型语言模型（LLMs）在代码定制方面能力的基准数据集。该数据集包含100个精心策划的TikZ编辑场景，每个场景都需要对代码进行修改以实现指定的视觉变化。vTikZ数据集由人类创建的TikZ代码变体组成，每个变体都是从一个原始的TikZ代码中衍生出来的，并附有相应的编辑指令。数据集还包括参数化的地面真实情况，以应对多个代码变体可能正确实现给定的视觉修改的问题。此外，数据集还包括一个视觉审查工具，用于评估生成的视觉结果。vTikZ数据集旨在解决代码定制与视觉结果的一致性问题，为多模态人工智能辅助编程的未来研究铺平了道路。

The vTikZ dataset is a benchmark dataset specifically designed to evaluate the code customization capabilities of Large Language Models (LLMs). This dataset contains 100 meticulously curated TikZ editing scenarios, each of which requires code modifications to achieve a specified visual change. The vTikZ dataset consists of human-created TikZ code variants, each derived from an original TikZ codebase and paired with corresponding editing instructions. The dataset also includes parameterized ground truths to address the scenario where multiple code variants may correctly implement a given visual modification. Additionally, the dataset includes a visual review tool for evaluating the generated visual outputs. The vTikZ dataset aims to address the consistency issue between code customization and visual outputs, paving the way for future research on multimodal AI-augmented programming.

提供机构：

Univ Rennes, Inria, IRISA, INSA Rennes, France

创建时间：

2025-05-07

原始信息汇总

vTikZ数据集概述

数据集简介

名称：vTikZ
定位：首个专门评估大型语言模型(LLMs)在具有视觉意图的代码编辑任务上的基准测试
应用场景：通过自然语言指令修改生成图表/图形的代码(如TikZ)
核心挑战：
- 定位相关代码(特征定位)
- 生成有效的代码变体
- 确保视觉结果与用户意图一致

数据特征

人工标注特征

code：原始图表生成代码
template_solution_code：参数化解决方案代码模板
instruction：描述视觉修改意图的自然语言指令
difficulty：定制任务的主观难度评分
result_description：预期视觉结果的人工描述
modification_type：代码修改类型(add/remove/update)
type：原始图表类别(scientific/animal)

自动计算特征

code_solution：完美变体代码集合
patch：原始代码与完美变体间的差异补丁
image_input：原始代码渲染图像
image_solution：所有完美变体的渲染图像
difficulty_ast：原始代码与变体代码的树编辑距离(TED)

数据结构

配置名称：tikz
特征字段：
- 序列类型：difficulty_ast(float32序列)
- 字符串类型：id/code/commented_code/instruction/result_description/difficulty/modification_type/type
- 序列字符串：patch/template_solution_code/code_solution
- 图像类型：image_solution(序列)/image_input

数据划分

分割名称	样本数	数据量(Bytes)
benchmark	100	6,167,039.0
test	2	122,202.52

技术指标

下载大小：3,928,058 Bytes
数据集总大小：6,289,241.52 Bytes

引用格式

bibtex @inproceedings{reux_llmvisualcutomization_2025, author = {Reux, Charly and Acher, Mathieu and Khelladi, Djamel Eddine and Barais, Olivier and Quinton, Cl{e}ment}, title = {LLM Code Customization with Visual Results: A Benchmark on TikZ}, booktitle = {Proceedings of The 29th International Conference on Evaluation and Assessment in Software Engineering (EASE 2025)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

vTikZ数据集通过精心筛选和人工标注的方式构建，主要包含100个TikZ代码编辑场景。这些场景源自两个主要数据源：LATEX StackExchange上的动物绘图和nllg/datikz数据集中的科学图表。在筛选过程中，研究者制定了严格的过滤标准，如代码必须包含至少一条注释、字符长度在一定范围内、包含超过3个基本TikZ形状等。每个场景都经过人工创建多个变体，并经过四位软件工程专家的评审，以确保数据质量。

使用方法

使用vTikZ数据集时，研究者需要提供原始TikZ代码、编辑指令和可选的原图作为输入。数据集支持两种评估方式：基于文本的LLM评估和基于多模态的LMM评估。评估过程采用Best-Of-N采样策略，通过五个主要指标（编译成功率、定位准确率、定制成功率、相似度指标和行编辑准确率）来全面衡量模型性能。数据集还提供了可视化评审工具，支持人工反馈和自动化评估相结合的方式，确保评估结果的可靠性。

背景与挑战

背景概述

vTikZ数据集由法国雷恩大学、里尔大学等机构的研究团队于2025年推出，旨在评估大型语言模型（LLMs）在可视化编程领域的代码定制能力。该数据集聚焦TikZ图形语言，包含100个经过人工标注的代码编辑场景，涉及科学图表和动物绘图两大类别。作为首个融合代码修改与视觉结果验证的基准测试，vTikZ通过参数化真实值和视觉审查工具，为多模态AI辅助编程研究提供了重要基础设施。其创新性在于建立了文本指令、代码修改与视觉输出之间的三元评估框架，推动了编程语言与计算机视觉的交叉研究。

当前挑战

vTikZ面临的核心挑战体现在两个维度：领域问题层面，需解决代码特征定位（如识别TikZ代码中控制特定图形元素的片段）、语义保持的代码变体生成（如修改蜜蜂翅膀数量时保持整体结构完整）、视觉一致性验证（如新增图形元素需符合原始风格）三大难题；构建过程中，研究团队需处理TikZ代码非结构化特性带来的标注困难（如缺乏显式元素-代码映射）、多解性导致的评估复杂性（如颜色调整存在多个有效参数范围），以及跨模态对齐的度量标准设计（需平衡代码语法正确性与视觉语义准确性）。这些挑战使得仅27%的LLM生成结果能达到预期效果。

常用场景

经典使用场景

vTikZ数据集主要用于评估大型语言模型（LLM）在代码定制任务中的表现，特别是在修改TikZ代码以生成特定视觉结果方面。该数据集通过精心设计的编辑场景和参数化解决方案，为研究者提供了一个系统化的评估框架，以测试模型在特征定位、代码修改和视觉一致性等方面的能力。

解决学术问题

vTikZ数据集解决了AI辅助编程中一个关键问题：如何确保代码修改与用户视觉意图的一致性。通过提供100个手动筛选的TikZ编辑任务，该数据集填补了现有基准测试在代码定制与视觉验证结合方面的空白。其参数化解决方案框架和多模态评估工具进一步推动了跨模态一致性研究的发展。

实际应用

在实际应用中，vTikZ数据集可显著提升图形编程语言的开发效率。其评估框架可直接应用于前端开发、科学图表生成和数字艺术创作等领域，帮助开发者验证AI模型在SVG处理、网页设计或3D建模等场景下的代码编辑能力，降低对专业编程知识的依赖。

数据集最近研究