VisCode-200K

Name: VisCode-200K
Creator: 滑铁卢大学, 卡内基梅隆大学, Netmind.ai, 独立研究者
Published: 2025-06-04 21:24:44
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://tiger-ai-lab.github.io/VisCoder

下载链接

链接失效反馈

官方服务：

资源简介：

VisCode-200K是一个大规模的Python可视化指令调整数据集，包含超过20万个示例，分为两个来源：(1) 从开源代码库中验证的可执行绘图代码，与自然语言指令和渲染的图表配对；(2) 来自Code-Feedback的45K多轮校正对话，使模型能够使用运行时反馈来修订错误的代码。该数据集旨在支持跨多种绘图库的鲁棒代码生成，并通过多轮监督实现迭代改进。

VisCode-200K is a large-scale Python visualization instruction tuning dataset containing over 200,000 examples, sourced from two distinct origins: (1) Executable plotting code verified from open-source code repositories, paired with matching natural language instructions and rendered charts; (2) 45K multi-turn correction dialogs from Code-Feedback, which enable models to revise erroneous code using runtime feedback. This dataset is designed to support robust code generation across multiple plotting libraries and facilitate iterative model improvement via multi-turn supervision.

提供机构：

滑铁卢大学, 卡内基梅隆大学, Netmind.ai, 独立研究者

创建时间：

2025-06-04

原始信息汇总

VisCoder 数据集概述

数据集基本信息

名称: VisCode-200K
类型: 监督式指令调优数据集
领域: Python可视化代码生成与自我修正
规模: 超过200K样本
来源:
- 开源仓库中的已验证绘图代码（105K来自stack-edu，50K来自CoSyn-400K）
- Code-Feedback数据集中的45K多轮修正对话

数据集构成

1. 代码提取与验证

来源库: matplotlib, seaborn等主流可视化库
处理流程:
- 库过滤 → 代码块提取 → 运行时验证 → 指令生成
验证方法:
- 在隔离Jupyter环境中执行代码
- 超时处理和错误拦截机制
- 仅保留成功生成有效图像文件的样本

2. 指令生成

组件:
1. 设置描述
2. 数据描述
3. 数据块预览
4. 高级绘图描述
5. 样式描述
生成方法: 使用GPT-4o基于代码和对应图像合成

3. 多轮反馈集成

来源: Code-Feedback数据集
规模: 45K多轮对话
内容: 用户指令→生成代码→执行反馈→修正提示

实验评估

评估基准

PandasPlotBench
评估指标:
- 执行通过率(Exec Pass)
- 平均视觉和任务分数(Mean)
- 高分样本比例(Good)

主要结果

VisCoder表现:
- 显著优于开源基线模型(Qwen2.5-Coder-Instruct)
- 3B版本在plotly和seaborn上改进明显
- 7B版本在部分库上超越GPT-4o-mini
自我调试评估:
- VisCoder-7B在matplotlib和seaborn上达到90%+执行率
- 多轮修正带来持续性能提升
跨库差异:
- matplotlib/seaborn表现较好
- plotly挑战最大(开源模型执行率<35%)

自我调试分析

调试轮次: 初始生成+3轮修正
关键发现:
- 首轮修正效果最显著
- VisCoder-7B在seaborn上接近GPT-4o
- 所有模型均存在无法修复的失败案例

相关资源

论文: arXiv
代码: GitHub
模型: 🤗 VisCoder-7B/3B
数据集: 🤗 VisCode-200K

搜集汇总

数据集介绍

构建方式

VisCode-200K数据集的构建采用了多源融合与严格验证的流程。首先从开源Python仓库提取可视化代码块，通过GPT-4o-mini进行代码结构清洗和独立化处理，并注入模拟数据确保可执行性。随后在Jupyter环境中进行运行时验证，仅保留能成功生成图像的有效样本。针对每个验证通过的代码-图像对，使用GPT-4o生成包含编程环境说明、数据结构描述、绘图要求等五部分的结构化指令。此外整合了45K轮次代码修正对话数据，形成支持单次生成与多轮调试的双重监督机制。整个流程涵盖代码过滤、执行验证和指令生成三个核心环节，最终构建包含20万样本的大规模指令微调数据集。

特点

该数据集具有三重模态对齐的鲜明特征：自然语言指令、可执行代码与渲染图像构成闭环验证体系。其样本覆盖matplotlib/seaborn/plotly等主流可视化库的真实使用场景，包含105K经运行时验证的代码-图像对和45K带执行反馈的多轮修正对话。独特之处在于采用'代码执行-图像生成-语义描述'的协同标注策略，每个样本均通过五段式结构化指令明确标注数据特征、视觉语义和样式要求。多轮修正数据进一步赋予模型基于运行时错误进行迭代优化的能力，解决了传统可视化数据集中执行验证缺失和调试支持不足的核心痛点。

使用方法

该数据集适用于Python可视化代码生成的模型训练与评估。使用时可将单轮生成样本用于基础能力微调，多轮对话数据用于迭代修正能力训练。评估阶段建议采用论文提出的自调试协议：首轮生成失败后，将错误信息与原始指令组合形成多轮提示，允许模型进行最多3次修正。对于科研用途，可分离使用其代码执行验证子集（含渲染图像）或指令跟随子集（含结构化描述）。数据已按5:1比例划分训练验证集，使用时需保持样本中代码-图像-指令的三者对应关系，确保模态对齐。

背景与挑战

背景概述

VisCode-200K是由滑铁卢大学、卡内基梅隆大学等机构的研究团队于2025年提出的一个大规模指令调优数据集，专注于Python可视化代码生成任务。该数据集包含超过20万条经过执行验证的绘图代码示例，涵盖matplotlib、seaborn等主流可视化库，旨在解决大语言模型在生成可执行且语义准确的可视化代码时面临的挑战。数据集创新性地整合了开源仓库中的已验证代码和多轮修正对话，为模型提供了从初始生成到迭代调试的全流程监督信号，显著提升了模型在可视化任务上的可靠性。

当前挑战

VisCode-200K主要应对两大挑战：在领域问题层面，针对可视化代码生成特有的多模态对齐难题（自然语言指令、数据结构和视觉输出的三重映射），解决现有模型生成的代码虽语法正确但视觉语义不符的问题；在构建过程层面，需克服代码验证的复杂性（确保20万条代码样本的可执行性）、跨库API差异性的处理（如matplotlib与plotly的语法差异），以及多轮修正对话与可视化任务的适配性整合。此外，数据集还需平衡不同可视化库的样本分布，避免模型产生库特定的偏见。

常用场景

经典使用场景

VisCode-200K数据集在数据可视化领域具有广泛的应用场景，特别是在基于Python的可视化代码生成任务中。该数据集通过整合来自开源仓库的可执行可视化代码和多轮修正对话，为研究人员和开发者提供了一个强大的工具，用于训练和评估语言模型在生成可视化代码方面的能力。经典使用场景包括从自然语言描述生成Python代码以创建各种图表（如折线图、柱状图、散点图等），以及通过多轮反馈迭代修正生成的代码，确保其执行正确性和视觉语义准确性。

衍生相关工作

VisCode-200K数据集已经衍生出多个相关研究工作。其中最著名的是VisCoder模型，该模型通过在VisCode-200K上微调Qwen2.5-Coder-Instruct，显著提升了开源模型在可视化代码生成任务上的性能。其他相关工作包括PandasPlotBench评估基准的开发，以及探索执行反馈在代码修正中的应用。这些工作共同推动了数据可视化与大型语言模型交叉领域的研究进展，为后续研究提供了重要的技术基础和评估标准。

数据集最近研究