VisCode-Multi-679K

Name: VisCode-Multi-679K
Creator: TIGER-Lab
Published: 2025-10-29 10:06:27
License: 暂无描述

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/VisCode-Multi-679K

下载链接

链接失效反馈

官方服务：

资源简介：

VisCode-Multi-679K是一个大规模的监督指令微调数据集，用于训练大型语言模型生成和调试跨12种编程语言的可执行可视化代码。每个样本将自然语言指令与可执行的可视化代码相链接，使得语言、代码和视觉语义之间可以进行有意义的关联学习。

提供机构：

TIGER-Lab

创建时间：

2025-10-29

原始信息汇总

VisCode-Multi-679K 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本到图像
语言: 英语
标签: 代码

数据集简介

VisCode-Multi-679K 是一个大规模监督指令调优数据集，用于训练大语言模型生成和调试可执行的可视化代码，涵盖12种编程语言。

数据规模与覆盖范围

样本数量: 超过679,000个样本
编程语言: 12种编程语言，包括Python、LaTeX、HTML、SVG、Vega-Lite、LilyPond、Asymptote、Mermaid、JavaScript、TypeScript、R和C++

数据格式

每个样本为JSON对象，包含以下三个键：

uuid: 样本的唯一标识符
messages: 对话轮次列表
- 用户角色：提供描述可视化任务的自然语言指令
- 助手角色：使用支持的编程语言之一回复可执行代码
language: 可视化代码使用的编程语言

应用场景

多语言可视化代码生成的指令调优
利用执行反馈进行多轮自我校正
训练模型对齐自然语言、代码语义和渲染输出

关联资源

项目页面: https://tiger-ai-lab.github.io/VisCoder2
GitHub仓库: https://github.com/TIGER-AI-Lab/VisCoder2
论文: https://arxiv.org/abs/2510.23642
评估基准: https://huggingface.co/datasets/TIGER-Lab/VisPlotBench
相关模型: https://huggingface.co/collections/TIGER-Lab/viscoder2

引用信息

bibtex @misc{ni2025viscoder2buildingmultilanguagevisualization, title={VisCoder2: Building Multi-Language Visualization Coding Agents}, author={Yuansheng Ni and Songcheng Cai and Xiangchao Chen and Jiarong Liang and Zhiheng Lyu and Jiaqi Deng and Kai Zou and Ping Nie and Fei Yuan and Xiang Yue and Wenhu Chen}, year={2025}, eprint={2510.23642}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2510.23642}, }

@article{ni2025viscoder, title={VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation}, author={Ni, Yuansheng and Nie, Ping and Zou, Kai and Yue, Xiang and Chen, Wenhu}, journal={arXiv preprint arXiv:2506.03930}, year={2025} }

搜集汇总

数据集介绍

构建方式

在数据可视化与代码生成交叉领域，VisCode-Multi-679K数据集通过系统化采集与标注流程构建而成。研究团队整合了十二种编程语言的生态资源，将自然语言指令与可执行可视化代码进行精准配对，形成了超过67.9万条高质量样本。每条数据均采用标准化处理流程，确保代码执行结果与视觉语义的严格对应，为多语言代码生成任务提供了坚实基础。

使用方法

研究人员可将该数据集应用于多语言代码生成模型的指令微调，通过解析JSON格式的对话结构获取训练样本。典型使用流程包括加载消息队列中的用户指令与助手代码响应，结合编程语言标签进行跨语言联合训练。该数据集支持基于执行反馈的自我修正研究，开发者能够利用其构建具备代码调试能力的可视化智能体，相关评估可在配套的VisPlotBench基准上进行验证。

背景与挑战

背景概述

随着数据可视化在科学传播与商业分析中的重要性日益凸显，多语言代码生成成为连接自然语言与视觉表达的关键桥梁。VisCode-Multi-679K由TIGER-AI实验室于2025年发布，作为VisCoder2项目的核心数据集，其旨在解决跨编程语言的动态可视化生成问题。该数据集涵盖Python、LaTeX等十二种编程语言，通过67.9万条指令-代码对构建语义映射体系，显著推动了多模态大语言模型在代码生成领域的泛化能力与研究边界。

当前挑战

多语言可视化代码生成面临领域内核心挑战，包括跨语言语义对齐的复杂性、代码可执行性与视觉一致性的双重验证难题。在构建过程中，需克服多编程语言生态差异导致的语法异构性，同时确保大规模数据标注时视觉意图与代码逻辑的精确匹配。此外，数据采集需协调不同渲染引擎的兼容性，并维持十二种语言间样本质量与分布平衡，这对自动化流水线与人工校验机制提出了极高要求。

常用场景

经典使用场景

在数据可视化与编程语言交叉领域，VisCode-Multi-679K数据集通过连接自然语言指令与可执行代码，为多语言可视化任务提供了标准化训练框架。该数据集覆盖十二种编程语言，使模型能够学习从文本描述到图形渲染的完整映射过程，尤其适用于跨语言代码生成与语义对齐研究。

解决学术问题

该数据集有效解决了多模态学习中代码语义与视觉表达的对齐难题，通过大规模标注样本弥合了自然语言、程序逻辑与视觉呈现之间的语义鸿沟。其构建方法为代码生成模型的指令调优提供了新范式，显著提升了模型在复杂可视化任务中的泛化能力与执行精度。

实际应用

在工业界与科研领域，该数据集支撑了智能编程助手的开发，能够根据用户描述自动生成图表代码。其多语言特性尤其适用于跨平台数据可视化工具，如学术论文图表生成、交互式网页可视化开发等场景，大幅降低了专业可视化技术的使用门槛。

数据集最近研究