VisJudgeBench
收藏github2025-10-13 更新2025-10-14 收录
下载链接:
https://github.com/HKUSTDial/VisJudgeBench
下载链接
链接失效反馈官方服务:
资源简介:
VisJudgeBench是一个用于评估可视化美学和质量的综合基准数据集,包含3,090个来自真实场景的专家标注样本,涵盖单一可视化、多重可视化和仪表板等32种图表类型。每个样本包含可视化图像、基于保真度-表达力-美学评估框架的六维质量评分以及评估提示。
VisJudgeBench is a comprehensive benchmark dataset for evaluating visual aesthetics and quality. It contains 3,090 expert-annotated samples sourced from real-world scenarios, covering 32 chart types such as single visualizations, multiple visualizations, dashboards, and more. Each sample includes a visualization image, a six-dimensional quality score based on the fidelity-expression-aesthetics evaluation framework, and evaluation prompts.
创建时间:
2025-10-13
原始信息汇总
VisJudgeBench 数据集概述
数据集简介
VisJudgeBench 是一个用于评估多模态大语言模型可视化美学和质量的综合基准,包含 3,090 个来自真实场景的专家标注样本,涵盖 32 种图表类型。
评估框架
基于 Fidelity-Expressiveness-Aesthetics 三维评估框架,细分为六个可测量指标:
1. 保真度 - 数据准确性和真实性
data_fidelity:评估视觉编码是否准确反映原始数据
2. 表达力 - 信息清晰度和可理解性
semantic_readability:评估基本信息编码的清晰度insight_discovery:评估揭示深层数据模式的有效性
3. 美学 - 视觉美学和精细化
design_style:测量设计的创新性和独特性visual_composition:关注空间布局的合理性color_harmony:评估颜色组合的协调性和功能性
数据集统计
类别分布
| 类别 | 样本数量 | 子类型数量 | 主要子类型及数量 |
|---|---|---|---|
| 单一可视化 | 1,041 | 22 | 柱状图 (176) • 饼图 (129) • 折线图 (100) • 面积图 (75) • 树状图 (62) • 桑基图 (61) • 热力图 (55) • 散点图 (49) • 直方图 (48) • 环形图 (47) • 漏斗图 (45) • 气泡图 (29) • 等值线地图 (25) • 雷达图 (24) • 网络图 (23) • K线图 (20) • 仪表盘图 (20) • 箱线图 (17) • 点地图 (12) • 词云 (1) • 小提琴图 (1) • 其他单一视图 (22) |
| 多重可视化 | 1,024 | 5 | 比较视图 (670) • 小多重 (195) • 协调视图 (97) • 其他多重视图 (59) • 概览细节 (3) |
| 仪表板 | 1,025 | 5 | 分析仪表板 (743) • 操作仪表板 (122) • 交互仪表板 (91) • 战略仪表板 (62) • 其他仪表板 (7) |
| 总计 | 3,090 | 32 | 完整覆盖所有可视化类型 |
基准结果
模型性能比较
| 模型 | MAE ↓ | MSE ↓ | 相关性 ↑ |
|---|---|---|---|
| VisJudge | 0.442 | 0.306 | 0.681 |
| GPT-5 | 0.551 | 0.484 | 0.429 |
| GPT-4o | 0.609 | 0.575 | 0.482 |
| Claude-4-Sonnet | 0.618 | 0.596 | 0.470 |
| Gemini-2.0-Flash | 0.680 | 0.716 | 0.395 |
| Gemini-2.5-Pro | 0.661 | 0.674 | 0.266 |
| Claude-3.5-Sonnet | 0.823 | 1.006 | 0.395 |
| Qwen2.5-VL-7B | 1.048 | 1.502 | 0.322 |
关键发现
- VisJudge 相比 GPT-5 在 MAE 上提升 19.8%
- VisJudge 与人类专家的相关性相比 GPT-5 提高 58.7%
- 在所有可视化评估任务指标上均优于商业 MLLMs
- 最先进模型与人类专家判断仍存在显著差距
数据格式
数据集以 JSON 格式存储,每个条目包含以下字段:
_id:唯一标识符type:可视化类别subtype:具体子类别image_path:可视化图像路径overall_score:整体质量分数(1.0-5.0)dimension_scores:六维质量评估分数prompt:完整评估提示
存储结构
VisJudgeBench/ ├── VisJudgeBench.json # 完整数据集 ├── figures/ # 文档图表 └── images/ # 可视化图像 ├── single_vis/ # 单一可视化图表 ├── multi_vis/ # 多面板可视化 └── dashboard/ # 仪表板样式可视化
搜集汇总
数据集介绍

构建方式
在可视化质量评估领域,VisJudgeBench的构建遵循严谨的三阶段流程。该数据集通过搜索引擎采集真实场景中的可视化图像,涵盖单一视图、多视图及仪表盘三大类别,共计32种图表子类型。随后基于保真度-表达力-美学三维评估框架,由专业标注者对3090个样本进行六维度质量评分,确保每个样本均包含可视化图像、详细评分及评估提示,从而形成全面且可靠的多模态评估基准。
特点
VisJudgeBench的显著特征在于其多维度的评估体系与广泛的覆盖范围。数据集采用保真度、表达力与美学三大核心维度,细化为数据保真度、语义可读性、洞察发现、设计风格、视觉构图及色彩协调六项具体指标。其样本涵盖从基础柱状图到复杂仪表盘的32种可视化类型,每个样本均配备专家标注的精细评分与结构化提示,为多模态大模型提供了兼具广度与深度的评估场景。
使用方法
该数据集以标准化JSON格式存储,用户可通过加载VisJudgeBench.json文件获取完整标注数据。每个数据条目包含唯一标识符、可视化类型、图像路径、综合评分及六维度细分分数。研究人员可利用内置评估提示对多模态模型进行测试,或基于维度分数开展可视化质量分析。数据集支持跨模型性能对比研究,尤其适用于可视化专项评估模型的训练与验证。
背景与挑战
背景概述
随着多模态大语言模型在视觉内容理解领域的快速发展,可视化美学与质量评估逐渐成为数据科学与人机交互交叉领域的核心议题。VisJudgeBench作为该领域的专业基准数据集,由香港科技大学研究团队于2024年创建,旨在解决现有模型在可视化评估任务中与人类专家判断存在的显著差距。该数据集基于保真度-表达力-美学三维评估框架,囊括了来自真实场景的3,090个专家标注样本,覆盖32种图表类型,为可视化质量评估提供了系统化的评测标准,显著推动了数据可视化智能评估方法的发展。
当前挑战
可视化质量评估领域面临的核心挑战在于如何建立兼顾数据准确性、信息传达效率与视觉美学的多维评价体系。VisJudgeBench构建过程中需克服三大难题:其一是标注一致性挑战,需要协调不同领域专家对抽象美学维度达成共识;其二是样本多样性挑战,需平衡32种图表类型在单图、多图及仪表盘等场景的分布;其三是评估偏差挑战,现有模型普遍存在分数膨胀或过度保守的系统性偏差,特别是在色彩协调与视觉构图等主观维度表现欠佳。
常用场景
经典使用场景
在数据可视化评估领域,VisJudgeBench作为专业基准被广泛应用于多模态大语言模型的性能验证。该数据集通过3,090个专家标注样本,系统覆盖了单视图、多视图和仪表盘等32种可视化类型,为模型在保真度、表达力与美学三大维度的评估提供了标准化测试环境。研究团队基于Fidelity-Expressiveness-Aesthetics框架设计的六项具体指标,能够精确衡量模型对可视化元素编码准确性、信息传达清晰度及视觉设计协调性的判断能力,成为验证模型视觉评估性能的核心实验平台。
衍生相关工作
基于该数据集衍生的VisJudge模型开创了可视化专项评估的新方向,其采用的GRPO优化方法为领域自适应训练提供了重要范例。后续研究相继提出了多粒度评估框架和跨模态对齐技术,进一步扩展了可视化质量评估的维度。这些工作不仅深化了对模型评估偏差机制的理解,还催生了面向特定图表类型的专项评估工具,形成了以VisJudgeBench为核心的可视化智能评估研究体系。
数据集最近研究
最新研究方向
在可视化评估领域,VisJudgeBench数据集正引领多模态大语言模型向专业化方向发展。随着数据可视化在各行业的广泛应用,如何精准评估图表的美学质量与信息传达效果成为研究热点。该数据集基于保真度-表达力-美学三维评估框架,揭示了通用模型在可视化专项评估中的局限性,催生了VisJudge等专用模型的诞生。前沿研究聚焦于克服模型评分偏差问题,探索复杂仪表盘场景下的评估稳定性,并推动可视化质量评估从主观经验走向量化科学。这一进展对提升商业智能、数据新闻等领域的可视化设计水平具有深远意义,为构建更可靠的人机协同评估体系奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



