VisCode-200K

Name: VisCode-200K
Creator: TIGER-Lab
Published: 2025-06-05 15:58:57
License: 暂无描述

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/VisCode-200K

下载链接

链接失效反馈

官方服务：

资源简介：

VisCode-200K是一个包含超过20万个样本的大规模指令调整数据集，用于训练语言模型生成和调试可执行的Python可视化代码。每个样本由一个自然语言指令和对应的Python代码组成，采用ChatML格式构建。适用于Python可视化代码生成的指令微调、多轮对话自我修正以及模型训练以对齐自然语言、代码语义和视觉输出。

提供机构：

TIGER-Lab

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

在数据可视化领域，VisCode-200K数据集通过精心设计的可扩展流程构建而成。该流程整合了清洗后的绘图代码、合成指令生成技术、运行时验证机制以及多轮对话构建方法，确保每个样本均包含自然语言指令与对应的可执行Python代码，并以ChatML格式的结构化消息列表呈现，最终形成超过20万个高质量样本。

特点

VisCode-200K数据集的核心特点在于其大规模与高质量并存，专为可执行Python可视化代码生成任务设计。每个样本均配备唯一标识符，并严格遵循用户指令与助手代码响应的对话格式，支持多种绘图库的使用，能够有效促进语言模型在自然语言、代码语义及视觉输出之间的对齐学习。

使用方法

该数据集主要应用于Python可视化代码生成的指令调优，支持多轮自我修正对话与执行反馈机制。研究人员可借助VisCode-200K训练模型，如VisCoder系列，通过输入自然语言指令获取可执行的绘图代码，并在PandasPlotBench等评估框架上验证模型性能，推动可视化编程智能体的发展。

背景与挑战

背景概述

在人工智能与数据可视化交叉领域，可执行代码生成任务日益受到关注。VisCode-200K数据集由TIGER-AI实验室于2025年构建，旨在解决自然语言指令到Python可视化代码的转换问题。该数据集包含超过20万条高质量样本，通过系统化流程整合了清洗后的绘图代码与合成指令生成，为训练语言模型提供了丰富资源。其创新性体现在多轮对话构建与运行时验证机制，显著提升了代码的可执行性与可视化效果对齐，对推动智能编程助手发展具有重要价值。

当前挑战

该数据集核心挑战在于解决自然语言指令与可视化代码语义对齐的复杂性，需确保生成代码兼具语法正确性与视觉表达准确性。构建过程中面临多维度挑战：原始代码清洗需消除冗余与错误；合成指令生成需保持多样性与真实性；运行时验证需处理跨平台兼容性问题；多轮对话构建需维持逻辑连贯性。这些挑战要求数据集构建流程具备高度自动化与严格质量控制，以实现代码执行结果与视觉预期的高度一致。

常用场景

经典使用场景

在数据可视化研究领域，VisCode-200K数据集通过其规模化的指令-代码配对样本，为语言模型提供了生成可执行Python可视化代码的训练基础。该数据集典型应用于多轮对话场景中，模型根据自然语言指令动态生成基于Matplotlib、Seaborn等库的可视化代码，并通过运行时验证确保代码的可执行性与可视化输出的准确性。这种应用显著提升了模型在复杂可视化任务中的代码生成能力与语义对齐水平。

实际应用

在实际应用中，VisCode-200K支撑了智能编程助手、自动化数据分析和教育工具的开发。例如，在商业智能场景中，用户可通过自然语言描述生成复杂的数据图表，大幅降低数据可视化的技术门槛。科研人员亦可利用该数据集训练模型，快速生成论文所需的统计图形，提升研究效率。其强调代码可执行性与视觉一致性，使得生成结果具备直接应用于生产环境的潜力。

衍生相关工作

基于VisCode-200K，研究社区涌现出多项经典工作，包括VisCoder系列模型（如VisCoder-3B和VisCoder-7B），这些模型在代码生成任务中表现出优异的性能。此外，该数据集还推动了如PandasPlotBench等评估基准的构建，促进了生成代码的质量评估与模型对比研究。相关成果已在顶级学术会议和期刊中得到广泛讨论，进一步拓展了代码生成与可视化交叉领域的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集