five

CHARTMUSEUM

收藏
arXiv2025-05-20 更新2025-05-21 收录
下载链接:
https://chartmuseum-leaderboard.github.io
下载链接
链接失效反馈
资源简介:
CHARTMUSEUM 是一个图表问答基准数据集,旨在评估大型视觉语言模型(LVLMs)在真实图表上的复杂视觉和文本推理能力。该数据集由13位计算机科学研究人员创建,包含1162个(图像、问题、答案)元组,这些元组来源于928个独特的真实世界图像,跨越了184个网站。与先前基准数据集不同,CHARTMUSEUM 中的所有问题都是由研究人员手动策划的,没有使用大型语言模型(LLMs)的辅助。数据集中的问题涵盖了多种推理类型,包括文本推理、视觉推理、文本/视觉推理和综合推理。通过评估10个开源模型和11个专有模型,CHARTMUSEUM 暴露了模型和人类性能之间的巨大差距,表明现有的 LVLMs 在视觉推理方面存在显著不足。
提供机构:
德克萨斯大学奥斯汀分校
创建时间:
2025-05-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
CHARTMUSEUM数据集的构建过程由13名计算机科学研究者共同完成,涵盖了来自184个不同网站的928张真实世界图表。研究者们首先讨论了潜在的图表来源,并将这些来源分配给不同的标注者。每个标注者负责从分配的来源中寻找并标注图表。所有问题均由研究者手动创建,未借助大型语言模型(LLM)辅助,以确保问题的真实性和多样性。每个问题都经过多阶段的人工审核流程,以确保问题质量和答案的客观性。数据集最终包含1,162个(图像、问题、答案)三元组,每个元组平均耗时20分钟完成。
特点
CHARTMUSEUM数据集的特点在于其多样性和高质量。数据集涵盖了多种图表类型,包括学术图表、信息图表和创意图表,来源广泛,确保了数据的多样性。所有问题均由人工创建,避免了模型生成问题可能带来的偏差。问题设计强调大答案空间和客观性,避免二元问题或简单比较,确保每个问题有至少4个可能的答案选项。此外,数据集特别关注视觉推理和文本推理的结合,通过四种问题分类(文本推理、视觉推理、文本/视觉推理、综合推理)全面评估模型的推理能力。
使用方法
CHARTMUSEUM数据集主要用于评估大型视觉语言模型(LVLM)在复杂视觉和文本推理任务上的表现。使用时,研究者可以将图表图像和对应的问题输入模型,要求模型生成答案。评估过程中,使用链式思维(Chain-of-Thought)提示来引导模型生成推理过程,并通过LLM-as-a-Judge方法评估答案的正确性。数据集提供了开发集和测试集(162和1,000个样本),确保模型评估的可靠性和泛化性。此外,研究者可以通过分析模型在不同推理类型问题上的表现,识别模型在视觉推理和文本推理方面的短板。
背景与挑战
背景概述
CHARTMUSEUM是由德克萨斯大学奥斯汀分校的研究团队于2025年创建的一个图表问答(QA)基准数据集,旨在评估大型视觉语言模型(LVLMs)在复杂视觉和文本推理任务上的表现。该数据集包含1,162个专家标注的问题,这些问题源自184个不同来源的真实世界图表,涵盖了多种推理类型。CHARTMUSEUM的创建填补了现有图表理解基准在视觉推理评估上的不足,特别是在模型与人类表现之间存在显著差距的情况下。该数据集的影响力在于其能够有效区分不同模型的能力,并为未来LVLM的发展提供了可靠的测试平台。
当前挑战
CHARTMUSEUM面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决图表理解中的视觉推理问题,但当前LVLMs在视觉推理上的表现明显落后于文本推理,尤其是在需要复杂视觉比较或轨迹跟踪的任务中,模型性能下降显著。2) 构建过程中的挑战:数据集的构建需要从大量真实图表中手动创建高质量、客观的问题,这一过程耗时且需要多阶段的人工审核以确保问题的多样性和答案的明确性。此外,避免模型生成问题并确保问题的真实性和多样性也是一个重要挑战。
常用场景
经典使用场景
CHARTMUSEUM数据集主要用于评估大型视觉语言模型(LVLMs)在复杂图表理解任务中的视觉与文本推理能力。该数据集通过专家标注的1,162个真实图表问题对,覆盖多种图表类型和推理类型,特别强调视觉推理的挑战性。其经典使用场景包括模型在图表问答(QA)任务中的性能测试,尤其是在需要结合视觉和文本信息的复杂推理问题中。
实际应用
该数据集的实际应用场景包括智能文档分析系统、商业智能工具和教育辅助平台。例如,在金融领域可帮助自动解析财报图表中的趋势对比;在科研中能加速论文图表的数据提取;在教育领域可支持学生通过自然语言交互学习图表解读。其真实场景的多样性和高难度问题设计,使其成为提升AI系统实用性的重要工具。
衍生相关工作
CHARTMUSEUM已衍生出多个相关研究工作,包括专用图表理解模型Bespoke-MiniChart-7B的开发和评估。其构建方法论启发了后续数据集如MultiChartQA的多跳推理设计,错误分析框架被应用于改进视觉编码器对齐的研究。该数据集还促进了评测范式的革新,例如在CharXiv等后续工作中采用更严格的视觉-文本推理分类标准。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作