ChartMuseum

github2025-05-16 更新2025-05-20 收录

下载链接：

https://github.com/Liyan06/ChartMuseum

下载链接

链接失效反馈

官方服务：

资源简介：

ChartMuseum是一个图表问答基准测试，旨在评估大型视觉语言模型在真实世界图表图像上的推理能力。该基准测试包含1162个（图像、问题、简短答案）元组，专门针对需要非平凡的文本和视觉推理技能的问题。数据集由13位计算机科学研究人员共同标注。

ChartMuseum is a chart question-answering benchmark designed to evaluate the reasoning capabilities of large vision-language models on real-world chart images. This benchmark contains 1162 tuples in the format of (image, question, short answer), specifically targeting questions that require non-trivial textual and visual reasoning skills. The dataset was jointly annotated by 13 computer science researchers.

创建时间：

2025-05-16

原始信息汇总

ChartMuseum 数据集概述

数据集简介

名称: ChartMuseum
类型: 图表问答基准数据集
目的: 评估大型视觉语言模型（LVLMs）在真实世界图表图像上的推理能力
规模: 包含1162个（图像、问题、简短答案）元组
特点: 专注于需要非平凡文本和视觉推理技能的问题

数据集内容

字段说明:
- image: 问题基于的图表图像
- question: 针对图表的问题
- answer: 问题的答案
- reasoning_type: 回答问题所需的主要推理技能类型（文本、视觉/文本、综合、视觉）
- source: 图像来源网站
- hash: 示例的唯一标识符

获取方式

访问地址: Hugging Face数据集页面
图像下载: 需额外下载images文件夹
加载代码: python from datasets import load_dataset from huggingface_hub import snapshot_download

dataset = load_dataset("lytang/ChartMuseum") snapshot_download( repo_id="lytang/ChartMuseum", repo_type="dataset", allow_patterns="images/*", local_dir="." )

评估方法

评估脚本: 使用OpenAI的GPT-4作为评判模型
评估要求:
- 预测答案需包含在<answer></answer>标签中
- 答案顺序需与数据集问题顺序一致
评估命令: bash export OPENAI_API_KEY=your_api_key_here python evaluate.py --prediction_path /path/to/predictions.json --split dev/test
评估成本:
- 开发集: $0.03（约5秒）
- 测试集: $0.16（约12秒）

许可信息

数据集许可: CC BY-SA 4.0
代码许可: Apache 2.0

搜集汇总

数据集介绍

构建方式

ChartMuseum数据集作为评估大型视觉语言模型在真实世界图表图像上推理能力的基准，其构建过程体现了严谨的学术规范。研究团队由13位计算机科学领域的研究人员组成，通过集体标注的方式，精心构建了1162组（图像、问题、简短答案）三元组数据。数据来源严格筛选自真实网络环境中的图表图像，每个问题均设计为需要非平凡的文本和视觉推理能力才能解答，确保了数据集的挑战性和实用性。

使用方法

使用者可通过Hugging Face平台便捷获取该数据集，需要同时下载数据集元数据和对应的图像文件夹。评估流程设计科学严谨，采用GPT-4作为评判模型，要求预测结果以特定XML标签格式呈现短答案。官方提供的评估脚本能自动计算模型准确率，并详细报告时间成本和经济效益。为便于复现研究，项目仓库完整包含了环境配置说明、示例代码和预训练模型输出样例。

背景与挑战

背景概述

ChartMuseum是由Liyan Tang、Grace Kim等13位计算机科学领域的研究人员共同构建的图表问答基准数据集，旨在评估大型视觉语言模型（LVLMs）在真实世界图表图像上的推理能力。该数据集创建于2025年，包含1162组（图像、问题、简短答案）元组，专注于需要非平凡文本和视觉推理技能的问题。ChartMuseum的推出填补了现有基准在复杂图表理解任务上的空白，为视觉语言模型在金融、医疗等领域的应用提供了重要的评估工具。该数据集通过多研究者协同标注的方式构建，确保了数据质量和多样性，其研究成果已发表在arXiv预印本平台上。

当前挑战

ChartMuseum数据集面临的核心挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决图表理解中复杂的多模态推理问题，这要求模型同时具备视觉信息提取和逻辑推理能力，而现有模型往往难以准确捕捉图表中的细微视觉特征和复杂数据关系；在构建过程中，研究人员需要克服真实世界图表图像的多样性挑战，包括不同图表类型（如柱状图、折线图等）的平衡覆盖，以及设计需要深度推理的问题-答案对，这涉及到对图表语义的精确理解和创造性问题构建。此外，确保标注的一致性和准确性也是一个重要挑战，因为复杂的推理问题往往存在多种合理的解释路径。

常用场景

经典使用场景

在视觉语言模型的研究领域，ChartMuseum数据集为评估模型对真实世界图表图像的理解能力提供了标准化的测试平台。该数据集通过精心设计的1162个（图像、问题、简短答案）三元组，特别关注需要复杂文本和视觉推理能力的问题，成为衡量模型在图表问答任务中表现的重要基准。研究人员可以借助这一数据集，系统地分析模型在不同类型图表（如柱状图、折线图、饼图等）上的理解能力差异。

解决学术问题

ChartMuseum数据集有效解决了视觉语言模型研究中缺乏专业图表理解评估基准的学术难题。通过标注团队定义的四种推理类型（文本、视觉/文本、综合、视觉），该数据集为分析模型在不同认知层次的表现提供了结构化框架。其真实场景采集的图表图像和精心设计的问题，填补了现有基准在复杂视觉推理任务评估上的空白，推动了视觉语言模型在专业领域理解能力的研究进展。

实际应用

在实际应用层面，ChartMuseum数据集的能力评估直接关联到金融分析、商业智能、学术研究等领域的自动化图表理解需求。训练良好的模型可以快速解析年报中的财务图表、科研论文中的实验数据可视化，或商业报告中的趋势分析图，大幅提升信息提取效率。该数据集特别强调的复杂推理能力，正是这些专业场景中准确理解图表深层含义的关键所在。

数据集最近研究