SciTikZ-230K

Name: SciTikZ-230K
Creator: 浙江大学; 上海人工智能实验室·OpenDataLab; 上海交通大学; 北京大学
Published: 2026-04-08 00:58:14
License: 暂无描述

arXiv2026-04-08 更新2026-04-09 收录

下载链接：

https://github.com/JackieLin0123/SciTikZ

下载链接

链接失效反馈

官方服务：

资源简介：

SciTikZ-230K是由上海人工智能实验室等机构联合构建的大规模科学图形TikZ代码数据集，涵盖11个学科领域的23万条高质量图像-代码对。该数据集通过执行中心化数据引擎严格筛选，确保代码可编译且与图像视觉对齐。数据来源包括HuggingFace、TeX StackExchange和arXiv，经多阶段修复与净化流程处理，消除冗余和依赖问题。其应用聚焦于科学图表程序合成领域，旨在解决多模态大语言模型在TikZ代码生成中存在的空间精度不足和结构退化问题。

SciTikZ-230K is a large-scale scientific graph TikZ code dataset jointly constructed by the Shanghai AI Laboratory and other institutions, comprising 230,000 high-quality image-code pairs spanning 11 academic disciplines. This dataset undergoes strict screening via a centralized data engine to ensure that the TikZ codes are compilable and visually aligned with their corresponding images. Its data sources include HuggingFace, TeX StackExchange, and arXiv, and it has been processed through multi-stage repair and purification workflows to eliminate redundancy and dependency issues. Focused on the field of scientific diagram program synthesis, this dataset aims to address the problems of insufficient spatial accuracy and structural degradation in TikZ code generation by multimodal large language models (LLMs).

提供机构：

浙江大学; 上海人工智能实验室·OpenDataLab; 上海交通大学; 北京大学

创建时间：

2026-04-08

原始信息汇总

SciTikZ数据集概述

数据集基本信息

数据集名称：SciTikZ
核心目标：实现从科学图形图像合成LaTeX/TikZ代码的强化学习框架
主要方法：采用双重自一致性强化学习框架，提升生成代码的视觉保真度和代码质量

核心框架与机制

双重自一致性机制：
- 视觉一致性：通过SIGLIP测量语义相似度和LPIPS测量结构相似度，确保渲染输出与输入图像紧密匹配
- 代码一致性：通过Token Edit Distance (TED)和CrystalBLEU度量，促进同一输入的不同代码生成之间的结构相似性
奖励函数组成：
- 二进制编译奖励：指示LaTeX编译是否成功
- 视觉奖励：基于加权的SIGLIP和LPIPS相似度分数
- 代码一致性奖励：使用TED和CrystalBLEU测量代码变体之间的相似性

项目结构

Supplementary Material/EasyR1/：强化学习训练框架
- examples/config.yaml：训练配置
- examples/qwen3_vl_8b_tikz_visual_grpo.sh：训练脚本
- examples/reward_function/tikz_self_consistency.py：主要奖励函数
Supplementary Material/Data_Process/：数据处理管道
- filter.ipynb：数据过滤
- repair/：代码修复和蒸馏
- runtime_validation/：批量编译验证
Supplementary Material/Benchmark_Eval/：评估框架
- api_tool/：基于API的推理
- eval/：评估指标
Supplementary Material/LLaMa-Factory/：模型训练工具

环境要求与安装

系统要求：
- Python 3.8或更高版本
- CUDA-capable GPU（用于训练）
- LaTeX发行版（TeX Live）
- ImageMagick（用于渲染TikZ代码）
- Apptainer或Singularity（用于容器化训练环境）
Python包依赖：
- torch torchvision transformers accelerate
- lpips pytorch-msssim crystalbleu torchmetrics
- pandas pyarrow pillow opencv-python
- sacremoses pygments

使用方法

训练： bash cd EasyR1/examples bash qwen3_vl_8b_self_consistancy_rl.sh
评估： bash cd Benchmark_Eval/eval export GT_ROOT="/path/to/ground-truth/images" export PRED_IMG="/path/to/predicted/images" export PRED_TEX="/path/to/predicted/code" export OUT_DIR="/path/to/results" bash eval.sh
数据处理：
- 数据过滤：jupyter notebook filter.ipynb
- 批量编译验证： bash cd runtime_validation export DISTILL_BASE="/path/to/data" bash run.sh

评估指标

图像相似性度量：SigLIP、CLIP、LPIPS、SSIM、DreamSim
代码相似性度量：Token Edit Distance (TED)、CrystalBLEU

致谢

感谢EasyR1/verl框架、HuggingFace Transformers、CrystalBLEU、LPIPS和SigLIP的作者提供的基础工具和度量标准。

搜集汇总

数据集介绍

构建方式

在科学图形程序合成领域，数据质量是模型性能的关键瓶颈。SciTikZ-230K数据集通过执行中心数据引擎构建，该引擎整合了来自HuggingFace、TeX StackExchange和arXiv的异构原始数据。构建过程采用主动修复与粗到细净化策略，首先利用多模态大语言模型对非独立代码片段进行重构与编译验证，随后通过沙箱执行确保代码在严格时限内可编译。针对编译失败的样本，引入诊断错误修复循环，借助模型解析编译器日志以修正语法错误，显著提升了数据可用性。在净化阶段，先应用启发式过滤去除冗余和异常样本，再采用多准则评判机制，从正确性、布局、可读性、科学合理性与视觉复杂性五个维度对样本进行精细评分与筛选，最终形成包含23万对高质量图像-代码对的数据集，涵盖11个科学领域，确保了数据的严格可执行性与视觉对齐精度。

特点

SciTikZ-230K数据集的核心特点在于其高质量与广泛覆盖性。数据集经过严格的质量控制，每一对图像与TikZ代码均保证可编译执行，并通过多维度评分机制确保了视觉与语义的高度对齐，有效解决了以往数据集中常见的噪声与错位问题。其内容跨越几何、物理、流程图、图表等11个主要科学领域，包含超过90个细分子类别，呈现出层次分明、分布均衡的学科结构。这种多样性不仅涵盖了从基础几何图元到复杂层次示意图的全谱系难度，还为模型提供了跨领域的泛化能力。此外，数据集与配套的SciTikZ-Bench评估基准相结合，为科学图形合成的视觉保真度与结构逻辑提供了全面、标准化的评估框架，弥补了该领域长期存在的评估缺口。

使用方法

SciTikZ-230K数据集主要用于训练和评估科学图形程序合成模型，特别是从图像到可编辑TikZ代码的生成任务。在使用时，数据集可作为监督微调阶段的高质量训练样本，为模型提供精确的语法与视觉对齐信号。基于此数据集训练的模型，可进一步通过课程数据选择策略，筛选出具有适当视觉复杂度的样本，用于强化学习阶段的策略优化。数据集的严格可执行性使得生成的代码能够直接编译并渲染，为基于编译与渲染反馈的奖励计算提供了可靠基础。此外，配套的SciTikZ-Bench基准可用于对模型性能进行多维度评估，包括编译成功率、视觉相似度指标以及代码质量度量，从而系统性地衡量模型在真实科学绘图场景下的合成能力。

背景与挑战

背景概述

SciTikZ-230K数据集由浙江大学、上海人工智能实验室等机构的研究团队于2026年4月发布，旨在解决科学图形程序合成领域的核心难题。该数据集聚焦于将静态科学示意图逆向工程为可编辑的TikZ代码，TikZ作为科学图表绘制的标准语言，其严格的坐标精度要求对多模态大语言模型构成了显著挑战。研究团队通过构建执行中心数据引擎，从arXiv、TeX StackExchange等学术平台聚合数据，经过严格的编译验证与语义对齐筛选，最终形成涵盖11个科学领域、包含23万高质量样本的数据集。SciTikZ-230K的建立为科学图形合成提供了可靠的训练基础，显著提升了模型在电路图、几何证明等复杂科学示意图上的代码生成能力，推动了视觉与符号表征对齐研究的发展。

当前挑战

SciTikZ-230K数据集主要应对两大挑战：在领域问题层面，科学图形程序合成需要精确解析图像中的几何拓扑关系，并转换为具有严格空间定义的TikZ代码，这对多模态模型的几何推理与符号逻辑协调能力提出了极高要求；现有方法常因视觉与代码表征不对齐而产生结构退化现象。在构建过程中，研究团队面临数据质量与评估体系的双重挑战：原始数据源存在大量非可执行代码、视觉代码错位及外部依赖缺失问题，需要通过主动修复机制与多维度保真度裁决进行清洗；同时，缺乏能够全面评估视觉保真度与结构逻辑的基准测试，促使团队同步开发了涵盖多层次复杂度的SciTikZ-Bench评估体系。

常用场景

经典使用场景

在科学可视化与学术出版领域，SciTikZ-230K数据集为图形程序合成研究提供了核心支撑。该数据集最经典的使用场景是训练多模态大语言模型，使其能够将复杂的科学示意图逆向工程为可编辑的TikZ代码。研究者利用其23万对高质量图像-代码样本，系统性地教导模型理解从电路图、流程图到几何证明图等多种科学图形的空间拓扑结构与语义逻辑，从而实现从像素到精确坐标描述的映射。这一过程不仅要求模型掌握TikZ的严格语法，更需具备跨学科的视觉推理能力，以生成在编译和执行层面均可靠的可视化代码。

衍生相关工作

围绕SciTikZ-230K数据集，一系列经典研究工作得以衍生并深化了图形程序合成的边界。其配套的SciTikZ-Bench为领域提供了首个多层次评估基准，催生了如SciTikZer模型及其双自一致性强化学习范式，该范式通过往返验证机制抑制退化代码生成，显著提升了视觉与符号表征的一致性。这些进展进一步激发了跨语言泛化探索，例如将类似框架应用于Python图表代码生成。同时，数据集的构建方法论也影响了后续高质量科学数据集的构建理念，强调执行验证与语义对齐，为多模态推理任务的数据标准化树立了典范。

数据集最近研究