realworld-chartqa
收藏arXiv2025-07-02 更新2025-07-04 收录
下载链接:
https://huggingface.co/datasets/maevehutch/realworld-chartqa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为realworld-chartqa,由伦敦市乔治大学的研究团队创建,旨在为图表问答(CQA)提供一个更真实、反映现实世界数据分析复杂性的数据集。数据集从学生的可视化笔记本中构建,结合了自然语言问题和多视图图表,并包含学生自主选择的多个数据集和定制的可视化。与现有CQA数据集不同,realworld-chartqa数据集基于真实的分析工作流程,旨在解决现有数据集无法准确反映现实世界可视化推理复杂性、缺乏交互式元素、以及缺乏分析上下文等问题。该数据集可用于评估多模态大型语言模型在图表理解方面的能力,并为未来研究提供更真实、更具有挑战性的基准。
The dataset named realworld-chartqa was created by a research team from George University in the City of London. It is intended to deliver a more realistic dataset that encapsulates the complexity of real-world data analysis for Chart Question Answering (CQA). Built upon students' visualization notebooks, the dataset combines natural language questions and multi-view charts, and includes multiple datasets self-selected by students as well as customized visualizations. Unlike existing CQA datasets, realworld-chartqa is rooted in real analytical workflows, and aims to address the limitations of current CQA datasets, such as their failure to accurately reflect the complexity of real-world visual reasoning, lack of interactive elements, and absence of analytical context. This dataset can be employed to evaluate the capabilities of multimodal large language models in chart comprehension, and provides a more authentic and challenging benchmark for future research.
提供机构:
伦敦市乔治大学
创建时间:
2025-07-02
原始信息汇总
RealWorld-ChartQA 数据集概述
摘要
RealWorld-ChartQA 是一个用于图表问答(CQA)的基准数据集,源自真实世界的分析性叙述。包含205个经过人工验证的多选题-答案对,基于学生编写的可视化笔记本。与之前的CQA数据集不同,RealWorld-ChartQA包含多视图和交互式图表,以及基于生态有效分析工作流程的问题。
数据集详情
数据集描述
- 整理者: Maeve Hutchinson, Radu Jianu, Aidan Slingsby, Jo Wood, Pranava Madhyastha
- 共享者: [@maevehutch]
- 语言: 英语
- 许可证: CC BY 4.0
数据集包括:
- 205个多选题,涵盖8种分析任务类型
- 103张图表图像,部分包含多个或交互式视图
数据来源
- 论文: Hutchinson et al. (2025), Chart Question Answering from Real-World Analytical Narratives, 将在ACL SRW 2025上展示。
用途
直接用途
RealWorld-ChartQA 旨在评估多模态模型在基于图表的视觉推理上的表现。支持:
- 基准测试视觉语言模型(如GPT-4V, Qwen-VL)
- 多模态问答、视觉分析和叙述理解的研究
数据集结构
每个条目包括:
question: 自然语言问题answer: 正确答案choices: 多选题选项列表task_type: 8种预定义视觉分析任务类型之一(如Retrieve Value, Find Extremum)quote: 用于支撑问答对的分析性叙述引用image_id: 相关可视化图像的标识符
此版本中没有训练/测试集划分。
数据集创建
整理理由
现有的CQA数据集通常使用合成图表或孤立图像。此数据集旨在反映真实的数据分析实践,通过基于用户编写的分析性叙述和捕获多视图(有时是交互式)可视化来支撑问答对。
源数据
数据收集和处理
- 源自22个由本科生和研究生创建的可视化笔记本。
- 通过无头浏览器截图捕获可视化,包括所有交互元素的状态(如下拉菜单)。
- 使用混合LLM辅助和人工验证的过程生成问答对。
源数据生产者
伦敦城市圣乔治大学参加10周数据可视化课程的学生。所有参与者明确同意数据重用和发布。
标注
标注过程
- 问答对最初由大型语言模型根据分析任务分类生成。
- 所有429个初始问答对由可视化专家审查。
- 如果问答对与可用可视化一致并反映基础推理,则被接受。
标注者
一位具有领域专业知识的研究人员手动验证并筛选了问答对。
个人和敏感信息
不包含个人或敏感信息。所有识别信息在预处理阶段被移除。数据集经过机构研究伦理委员会审查和批准。
偏差、风险和局限性
- 任务分布偏向于低级推理(如检索值)。
- 所有数据均为英语,可能反映源叙述的文化或风格偏差。
- 数据集规模有限可能影响泛化能力。
搜集汇总
数据集介绍

构建方式
该数据集通过分析学生撰写的可视化笔记本构建而成,这些笔记本整合了数据分析叙述与定制化图表。研究团队首先筛选了22份高质量笔记本,从中提取分析叙述和对应的可视化图表,包括静态和交互式视图。为确保数据质量,团队采用系统化方法捕捉交互视图的多种状态,并通过大语言模型生成与八种分析任务类型相匹配的问题-答案对,最终经过严格的人工验证保留了205组高质量数据。
特点
该数据集突破了传统图表问答数据集的局限,其核心特征体现在三个方面:真实场景下的多视图图表组合、基于分析叙述的问题生成机制以及包含16.1%不可回答问题的生态效度设计。相较于现有基准,该数据集36.6%的问题涉及多个可视化视图,完整保留了学生分析过程中的思维轨迹,且问题类型严格遵循可视化任务分类体系,从基础数值检索到高阶模式识别任务均有所涵盖。
使用方法
使用该数据集时,研究者可通过提供的笔记本链接获取原始分析语境,结合问题-答案对与对应可视化视图进行多模态推理测试。每个问题配备五个选项,包含三个干扰项、一个正确答案及'无法确定'选项,特别适合评估模型在真实分析场景下的图表理解能力。对于交互式视图相关问题,建议参照数据集提供的多状态截图模拟实际分析过程,同时注意16.1%的不可回答问题对模型自知能力评估的特殊价值。
背景与挑战
背景概述
RealWorld-ChartQA数据集由伦敦大学城市圣乔治学院的Maeve Hutchinson等研究人员于2025年提出,旨在构建一个基于真实世界分析叙事的图表问答基准。该数据集源自学生撰写的可视化笔记本,整合了多视图图表与自然语言问题,反映了生态效度良好的分析工作流程。与先前基于模板或单图表的基准不同,该数据集通过捕捉交互式可视化、跨图表推理及分析叙事,推动了多模态大语言模型在复杂视觉推理任务中的评估范式演进。
当前挑战
该数据集主要面临两大挑战:领域问题层面,现有模型在跨视图推理和叙事语境理解上表现不足,如GPT-4.1在需多图表联动的比较任务中准确率仅50%;构建层面,需平衡自动化生成与人工验证的矛盾,确保205个高质量问答对严格对齐可视化内容与分析叙事,同时处理动态交互视图的静态化表征难题。此外,任务分布不均衡(如高阶聚类问题仅占0.97%)及英语单语限制,亦制约了评估的全面性。
常用场景
经典使用场景
RealWorld-ChartQA数据集在数据可视化与自然语言处理的交叉领域中展现出其经典价值。该数据集通过整合真实学生作业中的分析叙事与多视图图表,为研究者提供了一个模拟实际数据分析流程的测试平台。其核心应用场景在于评估多模态大语言模型(如GPT-4.1和Qwen2.5-VL)对复杂图表的理解能力,特别是在需要跨视图推理或结合文本上下文回答问题的场景中。数据集包含205个经过严格人工验证的问答对,覆盖从数值检索到异常检测等八类分析任务,为模型性能提供了细粒度评估基准。
解决学术问题
该数据集有效解决了现有图表问答(CQA)研究中的生态效度不足问题。传统CQA数据集多采用模板化问题或单一静态图表,而RealWorld-ChartQA通过引入真实分析叙事、多视图交互图表及16.1%的不可回答问题,更准确地反映了实际数据分析中的复杂性。其任务分类体系基于经典可视化认知理论(如VLAT),系统性地揭示了模型在高层推理任务(如发现相关性)与低层感知任务(如检索数值)间的性能差异,为改进多模态模型的上下文理解能力提供了明确方向。
衍生相关工作
该数据集推动了多项前沿研究:在模型架构方面,启发了如MultiChartQA对跨图表推理机制的改进;在评估方法上,CharXiv借鉴其任务分类体系构建更细粒度的评测维度;在教育应用领域,后续工作基于其分析叙事生成技术开发了可视化素养自动评估工具。数据集特有的交互视图捕捉方法也为静态环境下的动态可视化研究提供了新思路,相关技术已被扩展至仪表盘自动化测试领域。
以上内容由遇见数据集搜集并总结生成



