VisPlotBench
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/VisPlotBench
下载链接
链接失效反馈官方服务:
资源简介:
VisPlotBench是一个用于评估可视化编码代理在八种编程语言中性能的基准数据集。它包含了888个可执行任务、渲染输出以及用于初始生成和多轮自我调试评估的标准化执行-渲染-评分协议。
提供机构:
TIGER-Lab
创建时间:
2025-10-29
原始信息汇总
VisPlotBench 数据集概述
数据集基本信息
- 数据集名称: VisPlotBench
- 主要用途: 评估跨八种编程语言的可视化编码代理
- 任务数量: 888个可执行任务
- 核心特点: 包含渲染输出和标准化的执行-渲染-评分协议
数据集结构
配置信息
数据集包含8个独立配置,对应8种可视化语言:
| 配置名称 | 测试样本数 | 数据集大小 | 下载大小 |
|---|---|---|---|
| asymptote | 92 | 3,872,100字节 | 3,331,687字节 |
| html | 108 | 11,698,935字节 | 11,504,616字节 |
| latex | 112 | 4,854,563字节 | 4,753,904字节 |
| lilypond | 55 | 2,168,012字节 | 2,135,231字节 |
| mermaid | 131 | 7,917,622字节 | 7,588,454字节 |
| python | 196 | 74,969,706字节 | 45,792,901字节 |
| svg | 65 | 5,274,236字节 | 4,858,653字节 |
| vegalite | 129 | 20,947,300字节 | 7,792,015字节 |
特征字段
所有配置共享相同的特征结构:
id: 字符串类型标识符task__plot_description: 字符串类型绘图描述task__plot_style: 字符串类型绘图样式data: 字符串类型数据used_lib: 字符串序列类型使用的库vis_cate: 字符串类型可视化类别subtype: 字符串类型子类型image: 图像类型
数据构建
- 数据来源: 库文档中的精选示例、高质量开源代码和程序化渲染流水线
- 质量保证: 在隔离环境中执行所有代码片段,确保有效渲染和可执行性
- 标注信息: 每个任务都标注了可视化类别和子类型
- 覆盖范围: 13个类别,包括条形图、线图、面积图、3D图、散点图、层次结构、网络与流程图、音乐等
任务结构
采用五组件指令模式:
- 设置 → 绘图指令 → 数据指令 → 任务描述 → 样式描述
评估协议
统一的执行-渲染-评分评估流水线:
- 执行通过率: 检查生成的代码是否成功运行并产生有效可视化
- 任务得分: 使用基于LLM的语义评分标准评估指令遵循程度
- 视觉得分: 测量生成图像与参考图像之间的感知相似度
支持多轮自调试功能,模型可以使用执行日志反馈最多三次优化代码。
相关资源
- 项目主页: https://tiger-ai-lab.github.io/VisCoder2
- GitHub仓库: https://github.com/TIGER-AI-Lab/VisCoder2
- 论文: https://arxiv.org/abs/2510.23642
搜集汇总
数据集介绍

构建方式
在可视化编程语言评估领域,VisPlotBench采用多源数据融合策略构建而成。该数据集整合了来自库文档的精选示例、高质量开源代码以及程序化渲染流水线,通过隔离环境执行确保代码的可执行性与渲染有效性。构建过程中剔除了视觉表现简单的输出,并为每个任务标注了可视化类别与子类型,覆盖条形图、线图、3D图等13个主要类别。任务设计采用五组件指令模式,确保跨语言结构一致性的同时保留各语言特有的语法规范。
特点
作为多语言可视化编码评估的前沿数据集,VisPlotBench展现出显著的跨语言覆盖特性。数据集囊括Python、Vega-Lite等八种编程语言,共计888个可执行任务,每个任务均配备自然语言指令、参考代码及渲染图像三重验证机制。其特色在于支持初始生成与多轮自调试双轨评估,通过标准化的执行-渲染-评分协议建立统一评估框架。数据集的视觉类别体系全面涵盖从基础图表到复杂网络流图等多样化可视化形式,为模型能力评估提供多维视角。
使用方法
针对可视化编码智能体的性能评估需求,VisPlotBench设计了系统化的使用流程。研究者可通过加载特定语言配置获取对应测试集,每个样本包含任务描述、参考代码与目标图像。评估过程遵循三阶段协议:首先检验生成代码的执行通过率,继而基于语义规则评估任务完成度,最后通过感知相似度度量视觉对齐程度。数据集支持多轮自调试模式,允许模型根据执行反馈进行至多三轮代码优化,模拟真实场景下的可视化修正循环。配套的评估脚本为标准化结果比对提供技术支撑。
背景与挑战
背景概述
可视化编程作为人机交互的重要桥梁,在数据科学和图形生成领域具有关键地位。VisPlotBench由TIGER-AI实验室于2025年10月正式发布,作为VisCoder2项目核心组件,首次构建了覆盖八种编程语言的系统性可视化编码评估基准。该数据集通过888个可执行任务,系统性地解决了多语言环境下可视化代码生成的质量评估难题,其创新性的执行-渲染-评分协议为跨语言可视化智能体研究提供了标准化范本。
当前挑战
多模态可视化代码生成面临语义理解与语法准确性的双重挑战,需同时处理自然语言指令解析、数据结构转换和视觉样式适配等复杂问题。在构建过程中,数据集需确保八种编程语言代码的可执行性与渲染一致性,克服了不同语言生态系统差异导致的依赖管理难题,并通过程序化渲染流水线验证了每个可视化输出的视觉保真度。
常用场景
经典使用场景
在可视化编程语言研究领域,VisPlotBench作为多语言可视化编码代理的基准测试平台,其经典应用场景集中于评估智能体在八种编程语言环境下的代码生成与调试能力。该数据集通过自然语言指令与对应可视化代码的配对,系统检验模型从文本描述到图形渲染的转换准确性,尤其在跨语言代码迁移和风格一致性维护方面展现出独特价值。
衍生相关工作
基于该数据集衍生的经典工作包括VisCoder系列研究,其中VisCoder2首次构建了统一的多语言可视化编码代理框架。相关研究进一步拓展至跨模态表示学习领域,催生了基于视觉反馈的代码修正模型、多语言代码语义理解架构等创新方向,持续推动着智能可视化生成技术的边界拓展。
数据集最近研究
最新研究方向
在可视化编程智能体领域,VisPlotBench作为首个跨八种编程语言的系统性评测基准,正推动多模态代码生成技术的边界探索。该数据集通过整合Python、Vega-Lite等八种可视化语言的执行环境,构建了包含888个可执行任务的标准化评估体系,其核心突破在于建立了“执行-渲染-评分”的三阶段验证机制。当前研究聚焦于跨语言语义对齐问题,通过对比生成图像与参考图像的感知相似度,探索语言无关的可视化编程范式。随着多轮自调试功能的引入,该基准进一步模拟了真实场景下的可视化修正循环,为构建具备自我纠错能力的智能编码代理提供了实验基础。这些进展不仅解决了传统单语言评测的局限性,更通过统一的多模态评估框架,为科学计算、数据新闻等领域的自动化可视化生成奠定了技术基石。
以上内容由遇见数据集搜集并总结生成



