five

CHARTQAPRO

收藏
arXiv2025-04-10 更新2025-04-10 收录
下载链接:
https://github.com/visnlp/ChartQAPro
下载链接
链接失效反馈
官方服务:
资源简介:
CHARTQAPRO是由加拿大约克大学等多个机构的研究人员构建的一个图表问题回答数据集,包含1341个来自157个不同来源的图表,涵盖了多种类型的图表,如条形图、折线图、饼图、信息图和仪表盘等。该数据集的问题类型包括推理、对话、多项选择、假设性和事实核查等,旨在更全面地评估大规模视觉语言模型在图表理解和推理方面的能力。

CHARTQAPRO is a chart question answering dataset constructed by researchers from multiple institutions including York University in Canada. It contains 1341 charts from 157 distinct sources, covering various chart types such as bar charts, line charts, pie charts, infographics, dashboards, and more. The question types in this dataset include reasoning, conversational, multiple-choice, hypothetical, and fact-checking tasks, aiming to comprehensively evaluate the capabilities of large-scale vision-language models in chart understanding and reasoning.
提供机构:
加拿大约克大学
创建时间:
2025-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
CHARTQAPRO数据集的构建过程分为三个关键阶段:图表图像收集、问题-答案标注以及问题-答案审核。首先,从157个多样化的在线平台(如Pew Research、Tableau等)收集了1341张图表图像,涵盖多种图表类型和主题。其次,通过人工与视觉语言模型协作的方式,生成了1948个涵盖多种问题类型(如推理、对话、多项选择等)的问题-答案对。最后,通过专家审核确保标注的准确性和多样性。
特点
CHARTQAPRO数据集以其多样性和复杂性著称。首先,它包含了来自多个领域的图表,如经济、健康、环境等,图表类型丰富,包括信息图和仪表盘。其次,问题类型多样,包括事实性问题、多项选择题、对话式问题等,能够全面评估模型的推理能力。此外,数据集还包含了不可回答问题,进一步增加了挑战性。
使用方法
CHARTQAPRO数据集主要用于评估视觉语言模型在图表理解和推理方面的能力。用户可以通过直接回答问题、链式思考(CoT)或程序化思考(PoT)等不同方式使用该数据集。具体使用时,需将图表图像和问题输入模型,模型需生成准确的答案。数据集还支持多轮对话和跨图表推理,适合用于复杂推理任务的评估和模型优化。
背景与挑战
背景概述
CHARTQAPRO是由加拿大约克大学、MILA魁北克人工智能研究所等机构的研究团队于2024年提出的图表问答基准数据集。该数据集针对现有ChartQA等基准在真实场景多样性方面的不足,汇集了来自157个不同来源的1,341张图表,涵盖信息图、仪表盘等复杂可视化形式,并包含1,948个涵盖多选、对话式、假设性等多样化问题类型的人类标注问答对。作为视觉语言模型在图表理解领域的新基准,其通过引入真实场景中的多模态推理挑战,显著降低了现有最先进模型的性能表现(如Claude Sonnet 3.5准确率从ChartQA的90.5%降至55.81%),推动了图表认知推理研究向更贴近实际应用需求的方向发展。
当前挑战
CHARTQAPRO面临的核心挑战体现在两个维度:在领域问题层面,需解决复杂图表理解中的多模态推理难题,包括对拥挤视觉元素的精准感知(如重叠数据标签识别)、跨图表联合推理(如仪表盘多视图关联分析)以及假设性问题的逻辑推演能力;在构建过程中,研究团队需克服真实图表来源的异质性(如非标准化坐标轴标注)、人类标注的主观性(如趋势描述类问题的模糊边界)以及问题类型平衡性(确保数学计算与语义推理问题的合理配比)等工程挑战。这些挑战使得该数据集成为检验模型真实图表理解能力的试金石,揭示了现有视觉语言模型在细粒度视觉解析与深层逻辑推理方面的显著缺陷。
常用场景
经典使用场景
CHARTQAPRO数据集在图表问答(Chart Question Answering, CQA)领域具有广泛的应用场景,尤其在评估大型视觉语言模型(LVLMs)的图表理解和推理能力方面表现突出。该数据集涵盖了多种图表类型,包括条形图、折线图、饼图以及复杂的仪表盘和信息图表,能够全面测试模型在不同视觉和语义复杂度下的表现。其多样化的问答形式,如多选、对话式、假设性和不可回答的问题,为研究者提供了一个接近真实世界挑战的测试平台。
解决学术问题
CHARTQAPRO解决了现有图表问答数据集在视觉和语义多样性上的不足,填补了复杂推理任务评估的空白。传统数据集如ChartQA和CharXiv由于来源单一且问题类型有限,导致模型性能评估过于乐观。CHARTQAPRO通过引入多源图表和多样化问题类型,显著提升了评估的严谨性,揭示了现有模型在视觉感知、数学推理和指令遵循等方面的不足,为后续研究指明了改进方向。
衍生相关工作
CHARTQAPRO的发布推动了多项相关研究的发展,尤其是在视觉语言模型的优化方面。例如,基于该数据集的评估结果,研究者提出了ChartGemma和TinyChart等专用模型,进一步提升了图表理解的性能。此外,该数据集还激发了关于多模态推理、指令微调和错误分析的新方法研究,为图表问答领域的技术进步提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作