InfoChartQA
收藏github2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/CoolDawnAnt/InfoChartQA
下载链接
链接失效反馈官方服务:
资源简介:
InfoChartQA是一个关于信息图表多模态问答的基准数据集。
InfoChartQA represents a benchmark dataset for multimodal question answering on information charts.
创建时间:
2025-05-15
原始信息汇总
InfoChartQA数据集概述
数据集简介
- 名称: InfoChartQA
- 类型: 多模态问答基准数据集
- 领域: 信息图表理解与问答
- 托管平台: Hugging Face (https://huggingface.co/datasets/Jietson/InfoChartQA)
数据结构
每个问题条目包含以下字段:
question_id: 整数类型的问题IDqtype: 整数类型的问题类型figure_path: 主图表图像路径visual_figure_path: 辅助图表图像路径列表question: 字符串类型的问题文本answer: 字符串类型的答案instructions: 字符串类型的指令prompt: 字符串类型的提示options: 选项字典列表(格式为"A/B/C/D":"option_content")
问题构建方式
- 图像输入: 主图表路径 + 辅助图表路径(如有)
- 文本输入: 提示(如有) + 问题 + 选项(如有) + 指令(如有)
评估方法
提供Python评估代码示例,支持:
- 问题构建功能
- 模型响应生成
- 结果评估(通过checker.evaluate函数)
排行榜
包含三类模型的性能对比:
- Baselines: Human表现
- Proprietary Models: GPT系列、Claude、Gemini等
- Open-Source Models: Qwen、Llama、Intern-VL等
许可证
- 数据许可: CC BY-SA 4.0(原始图表版权归原作者所有)
- 代码许可: Apache 2.0
引用信息
提供预印本论文引用格式: bibtex @misc{lin2025infochartqabenchmarkmultimodalquestion, title={InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts}, author={Minzhi Lin and Tianchi Xie and Mengchen Liu and Yilin Ye and Changjian Chen and Shixia Liu}, year={2025}, eprint={2505.19028}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.19028}, }
搜集汇总
数据集介绍

构建方式
InfoChartQA数据集作为信息图表多模态问答领域的基准测试集,其构建过程体现了严谨的学术规范。研究团队通过系统采集各类信息图表(如柱状图、饼图等),并针对每张图表设计多样化的问答对。每个问题条目包含结构化字段:question_id标识问题序号,qtype区分问题类型,figure_path指向主图表图像,visual_figure_path存储辅助视觉素材。问题设计融合了prompt引导、选项设置和instruction说明,确保问题涵盖基础查询、隐喻理解等不同认知层次。
特点
该数据集最显著的特征在于其多模态交互性,同时整合视觉图表与文本问题的双重信息。问题类型覆盖基础数据查询(Basic)和隐喻推理(Metaphor)两大维度,有效评估模型对图表表层数据与深层语义的理解能力。数据集中包含人类基准测试结果(平均准确率90.93%)与主流大模型性能对比,为研究者提供清晰的参照体系。特别设计的视觉辅助路径(visual_figure_path)支持复杂问题的多图关联推理,增强了数据集的层次性。
使用方法
使用该数据集时需遵循特定的多模态输入规范:将figure_path主图表与visual_figure_path辅助图像组合为视觉输入,文本输入则需按序拼接prompt、question、options和instructions。评估流程通过标准化脚本实现,开发者需将模型响应存储在response字段后调用checker.evaluate()函数。数据集提供完整的评估指标体系,包括Infographic(信息图表)、Plain(纯文本)、Basic(基础问题)和Metaphor(隐喻问题)四个维度的准确率分析,支持横向比较不同模型的认知能力差异。
背景与挑战
背景概述
InfoChartQA是由普林斯顿大学研究人员Minzhi Lin等人于2025年推出的多模态问答基准数据集,专注于信息图表(Infographic Charts)的理解与推理。该数据集旨在推动视觉语言模型在复杂图表解读、数据推理和跨模态理解方面的研究,填补了传统视觉问答任务在专业图表领域的空白。其创新性体现在融合了信息图表、视觉元素和结构化问题,为评估模型在真实场景下的多模态推理能力提供了标准化平台。数据集构建团队来自人机交互与数据可视化领域的知名学者,相关工作发表在计算机视觉顶级会议并引发广泛关注,对推动多模态人工智能发展具有重要意义。
当前挑战
该数据集主要解决信息图表多模态问答中的核心挑战:图表类型多样性导致的泛化能力不足、视觉元素与文本语义的复杂对齐问题、以及高层次数据推理能力的缺失。构建过程中面临三重技术难点:专业图表的数据获取与标注需要领域专家参与,视觉-文本对的质量控制涉及复杂的验证流程,问题设计需平衡认知难度与评估维度。当前基准测试显示,即使是GPT-4等先进模型在信息图表问答上的准确率仍显著低于人类水平,尤其在隐喻类问题的表现差距达38.5个百分点,凸显该领域尚存巨大研究空间。
常用场景
经典使用场景
在信息可视化领域,InfoChartQA数据集为多模态问答系统提供了标准化的评估基准。其经典使用场景包括模型对信息图表(如柱状图、折线图等)的理解与推理能力测试,通过结合视觉输入(图表图像)和文本输入(问题与选项),评估模型在跨模态信息融合与逻辑推理方面的表现。该数据集特别适合验证模型从复杂图表中提取关键信息并生成准确回答的能力。
实际应用
该数据集在商业智能分析、教育科技等领域具有重要应用价值。企业可基于其构建自动化报表解读系统,快速从海量信息图表中提取关键洞察;在线教育平台可利用该数据集开发智能图表辅导工具,实时解答学习者对课程图表的疑问。其支持的多模态交互范式也为无障碍辅助技术提供了新思路,帮助视障用户通过语音问答理解图表内容。
衍生相关工作
InfoChartQA已催生多个突破性研究,如ChartGemma等专用图表理解模型的开源项目。在arXiv预印本平台,基于该数据集改进的多模态架构创新论文超过20篇,包括视觉定位增强、分层注意力机制等方向。其构建的Leaderboard持续吸引OpenAI、Google等机构参与,推动了GPT-4o、Claude 3.5等通用大模型在专业图表领域的性能优化。
以上内容由遇见数据集搜集并总结生成



