five

Chart-HQA

收藏
arXiv2025-03-06 更新2025-03-11 收录
下载链接:
http://arxiv.org/abs/2503.04095v1
下载链接
链接失效反馈
官方服务:
资源简介:
Chart-HQA是一个由浙江大学和阿里巴巴集团合作构建的挑战性基准数据集,旨在评估大规模语言模型在图表假设性问题的理解和推理能力。该数据集通过人类与AI的互动合成方法HAI生成,包含2173个假设性问题,覆盖了多种图表类型,并具有900个指令提案和4种答案类型,为模型提供了丰富的多样性挑战。

Chart-HQA is a challenging benchmark dataset jointly constructed by Zhejiang University and Alibaba Group, designed to evaluate the understanding and reasoning capabilities of large language models (LLMs) when processing hypothetical questions about charts. This dataset is generated through the Human-AI Interactive Synthesis (HAI) method, encompassing 2173 hypothetical questions covering diverse chart types, alongside 900 instruction proposals and 4 answer types, thereby delivering rich and varied challenges for models.
提供机构:
浙江大学
创建时间:
2025-03-06
搜集汇总
数据集介绍
main_image_url
构建方式
Chart-HQA数据集的构建方法采用了人机交互的数据合成方法HAI,该方法结合了大型语言模型LLMs的高效文本编辑能力和人类专家知识,以低成本生成多样化和高质量的数据。具体来说,HAI包含两个关键组件:反事实建议生成器(CIG)和人反馈鉴别器(HFD)。CIG模块随机从种子指令集中采样子集,并将其与图表的详细描述一起输入LLM,以生成新的指令建议和HQ实例。HFD模块则由多名人类专家从多个角度审查生成的HQ实例,包括答案的准确性、布局的一致性和问题的清晰度。只有通过人类专家验证的HQ实例才会被保留。此外,利用LLMs的自我反思能力,根据人类专家的反馈对相应的指令建议进行修订,从而扩展种子指令集。基于该方法,我们从ChartQA的事实性QA中构建了Chart-HQA,这是一个具有挑战性的HQ基准。
特点
Chart-HQA数据集的特点包括:1. 首个研究开放域中图表上下文中假设问题的基准;2. 问题的生成完全自动,由LLMs完成,大大降低了数据构建成本;3. Chart-HQA具有开放词汇的QA格式,要求对底层图表数据应用反事实操作。此外,Chart-HQA包含2172个假设性问题,900个指令建议,4种答案类型,问题平均长度为149.14个字符,假设平均长度为82.10个字符,答案平均长度为6.29个字符。这些统计数据显示,模型需要多样化的符号推理能力来回答Chart-HQA中的问题。
使用方法
Chart-HQA数据集的使用方法包括:1. 评估多模态大型语言模型(MLLMs)在图表假设问题回答(HQA)任务上的表现;2. 检验MLLMs在图表上下文中的推理能力;3. 研究不同模型在不同答案类型上的表现,以发现潜在的研究方向。此外,Chart-HQA数据集还可用作MLLMs的训练数据,以提升模型在图表理解和推理方面的能力。
背景与挑战
背景概述
图表假设问答数据集Chart-HQA的创建旨在解决多模态大型语言模型(MLLMs)在理解图表内容时的输出偏差问题。MLLMs在视觉-语义理解方面表现出色,但在阅读、理解和总结视觉图表方面仍然面临重大挑战。现有的图表问答基准主要关注事实问答(FQA),要求模型直接从图表图像中提取信息以回答问题。然而,这些基准忽略了MLLMs的固有输出偏差问题,即模型倾向于依赖其参数记忆来回答问题,而不是解释图表的视觉内容。为了解决这个问题,Chart-HQA引入了假设问答(HQA)任务,要求模型在图表内容的基础上进行反事实推理。此外,Chart-HQA还引入了人机交互数据合成方法HAI,利用LLMs的文本编辑能力和人类专家知识,以低成本生成多样化和高质量的HQA数据。
当前挑战
Chart-HQA数据集面临的挑战包括:1)领域问题挑战:HQA任务要求模型在图表内容的基础上进行反事实推理,这需要模型具备更深入的理解和推理能力。2)构建过程中遇到的挑战:为了生成高质量的HQA数据,Chart-HQA采用了人机交互数据合成方法HAI,这涉及到LLMs和人类专家的合作,需要解决数据多样性、结构一致性、问题清晰度等问题。
常用场景
经典使用场景
Chart-HQA数据集的诞生旨在挑战并评估多模态大型语言模型(MLLMs)在图表理解上的真实能力。该数据集的经典使用场景是作为模型评估基准,特别是在图表假设性问答(HQA)任务上。通过引入假设性的问题,模型被迫进行基于图表内容的反事实推理,而非简单地依赖参数记忆来回答问题。这种评估方式揭示了MLLMs在处理图表时的输出偏差问题,为模型性能的改进提供了重要依据。
解决学术问题
Chart-HQA数据集解决了MLLMs在图表问答任务中存在的输出偏差问题。传统的图表问答基准主要关注事实性问题回答(FQA),而忽略了模型可能依赖于参数记忆而非真正理解图表内容的现象。Chart-HQA通过引入假设性问题,迫使模型进行基于图表内容的反事实推理,从而揭示了模型在理解图表时的真实能力。这对于推动MLLMs在图表理解领域的发展具有重要意义。
衍生相关工作
Chart-HQA数据集的提出,推动了图表假设性问答任务的研究。基于Chart-HQA,研究人员可以开发新的评估基准和模型,提高模型在图表理解任务上的性能。此外,Chart-HQA数据集还可以与其他图表问答基准结合,构建更全面的评估体系,推动图表问答领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作