five

VIS-Shepherd

收藏
arXiv2025-06-16 更新2025-06-19 收录
下载链接:
https://github.com/bopan3/VIS-Shepherd
下载链接
链接失效反馈
官方服务:
资源简介:
VIS-Shepherd数据集是由浙江大学计算机辅助设计与图形学国家重点实验室的研究团队构建的,旨在为基于大型语言模型的数据可视化生成提供评估和反馈。数据集包含了2700个高质量的数据可视化评估实例,这些实例是通过从互联网上收集、人工筛选和LLM生成的缺陷实例组成的。该数据集为VIS-Shepherd模型提供了丰富的学习素材,使其能够学习到现实世界的可视化知识和技能,并为LLM生成的可视化提供有针对性的反馈。数据集的构建过程包括多阶段,包括人工创建实例的筛选、指令合成、数据集导出、LLM生成和缺陷识别等。VIS-Shepherd数据集主要用于解决基于LLM的数据可视化生成中的质量问题,旨在提高LLM生成可视化的准确性和可靠性。

The VIS-Shepherd dataset was constructed by the research team from the State Key Laboratory of Computer-Aided Design and Computer Graphics at Zhejiang University, aiming to provide evaluation and feedback for data visualization generation based on large language models (LLMs). The dataset consists of 2700 high-quality data visualization evaluation instances, which are compiled from internet-collected samples, manually screened instances and defect instances generated by LLMs. This dataset provides abundant learning materials for the VIS-Shepherd model, enabling it to acquire real-world visualization knowledge and skills, and deliver targeted feedback for visualizations generated by LLMs. The construction process of the dataset encompasses multiple stages, including screening of manually created instances, instruction synthesis, dataset export, LLM generation, and defect identification. The VIS-Shepherd dataset is primarily used to address quality issues in LLM-based data visualization generation, with the goal of improving the accuracy and reliability of visualizations generated by LLMs.
提供机构:
浙江大学计算机辅助设计与图形学国家重点实验室
创建时间:
2025-06-16
原始信息汇总

VIS-Shepherd数据集概述

数据集基本信息

  • 数据集名称:VIS-Shepherd
  • 用途:用于基于LLM的数据可视化生成的批评模型构建
  • 官方实现仓库:https://github.com/bopan3/VIS-Shepherd

数据集内容

  • 训练数据路径:train/data/viscrafter_20250521.json
  • 数据格式: json [ { "input": "输入指令", "output": "输出响应", "images": ["图像路径"] } ]

训练与评估

  • 训练配置:使用8块A800 GPU(80G内存)和DeepSpeed进行训练

  • 训练命令: bash llamafactory-cli train train/configs/train-sft-full-viscrafter-20250521.yml

  • 评估配置:需在evaluation/config/config.yaml中填写API基础地址、API密钥和模型列表

  • 评估命令: bash python run_parallel_autoCritic.py --input_base_path test_set --output_base_path critic_outputs --model_used "模型名称" ./run_all_autoEvaluate.sh

评估结果

模型 平均得分 得分3-5占比
GPT-4o 3.41 72.0%
VIS-Shepherd 2.98 67.1%
Llama-4-Maverick 2.94 52.8%
Qwen-2.5-VL-72B 2.78 49.1%
qwen-2.5-VL-7B_1.2k 2.5 52.2%
qwen-2.5-VL-7B_0.3k 2.4 44.1%
qwen-2.5-VL-7B 2.2 44.1%

预训练模型

  • 预训练模型:即将发布
搜集汇总
数据集介绍
main_image_url
构建方式
VIS-Shepherd数据集的构建采用了系统化的四阶段框架。首先从Observable平台爬取18万个人工创建的视觉化实例,经过多阶段质量筛选后保留1.7K个高质量样本。随后通过角色扮演方法,由大语言模型生成多样化的用户指令,并设计定制化的数据导出流程,形成(指令,数据,人工可视化)三元组。第三阶段利用GPT-4o等先进模型基于相同指令生成可视化结果,扩展为四元组。最后聘请视觉化专家进行缺陷标注和批判性评价,最终构建包含2.7K条高质量评价的数据集。
特点
该数据集具有三个显著特点:其一是样本多样性,涵盖多种数据类型和可视化形式;其二是质量严格把控,通过专家筛选确保参考样本的高标准;其三是评价专业性,由视觉化领域专家进行系统化缺陷标注,并提供建设性改进建议。特别值得注意的是,数据集同时包含人工创建和AI生成的视觉化对比样本,为模型训练提供了丰富的学习材料。
使用方法
VIS-Shepherd数据集主要用于训练和评估基于多模态大语言模型的视觉化批评系统。研究人员可以将其用于监督学习,通过微调使模型掌握视觉化质量评估的能力。使用时应将指令-数据对输入生成模型产生视觉化结果,然后将生成结果与人工参考样本一同输入批评模型,获取质量评价和改进建议。该数据集也适用于视觉化生成管线的自动评估,通过比较模型输出与人工评价的一致性来衡量系统性能。
背景与挑战
背景概述
VIS-Shepherd数据集由浙江大学CAD&CG国家重点实验室的研究团队于2025年提出,旨在解决基于大型语言模型(LLM)的数据可视化生成中的质量评估问题。该数据集的核心研究问题是开发一个多模态大型语言模型(MLLM)批评器,用于自动评估和改进LLM生成的可视化结果。VIS-Shepherd通过构建高质量的可视化批评数据集,显著提升了小型开源模型在可视化批评任务中的性能,使其能够与更大规模的专有模型相媲美。这一工作为自动化可视化生成和评估提供了新的研究方向,并在数据可视化领域产生了重要影响。
当前挑战
VIS-Shepherd数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,数据可视化生成涉及复杂的视觉编码和领域知识,现有批评模型往往无法准确识别可视化中的缺陷,如视觉清晰度、语义可读性等问题。在构建过程方面,数据集需要收集多样化且高质量的人类创建的可视化实例,并通过多阶段流程合成LLM生成的可视化及其批评意见,这一过程需要大量的人工标注和验证,以确保批评的高质量和一致性。此外,如何平衡批评的准确性和实用性,避免冗长但无效的反馈,也是构建过程中的重要挑战。
常用场景
经典使用场景
在数据可视化生成领域,VIS-Shepherd数据集通过构建多模态大语言模型(MLLM)驱动的批评器,为LLM生成的可视化结果提供自动化评估与改进反馈。该数据集典型应用于可视化生成流程的质量控制环节,当用户输入自然语言指令后,系统首先生成可视化代码并渲染输出,随后VIS-Shepherd基于专业可视化知识对结果进行缺陷检测,如识别图例截断、色彩编码错误等常见问题,最终形成结构化反馈指导迭代优化。这种端到端的评估机制显著提升了自动化可视化生成系统的可靠性。
解决学术问题
该数据集有效解决了LLM生成可视化中的质量评估难题。传统方法依赖纯文本分析无法捕捉视觉元素的缺陷,而通用评估模型缺乏可视化领域的专业知识。VIS-Shepherd通过构建包含2.7k高质量批评标注的数据集,系统性地建立了可视化缺陷分类体系(如表1所示的指令符合性、视觉清晰度等维度),使得7B参数的小型模型也能达到与大型商业模型相当的评估性能。这项工作为可视化生成领域建立了首个专业化的评估基准,填补了自动化可视化质量控制的学术空白。
衍生相关工作
该数据集推动了多模态批评模型的系列研究。基于VIS-Shepherd构建的评估框架被扩展应用于时序可视化生成系统TimeCritic,其采用分层评估策略处理动态数据特性;后续工作ChartPhysician引入可视化语法树分析,进一步提升了复杂图表的结构化批评能力。在跨领域迁移方面,医学影像社区借鉴其数据构建方法,开发了RadVis-Eval专项评估工具。这些衍生研究共同验证了专业化批评数据集在垂直领域的重要价值,形成了可视化质量评估的技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作