visual_qa_histograms
收藏Hugging Face2025-09-18 更新2025-09-19 收录
下载链接:
https://huggingface.co/datasets/ReadingTimeMachine/visual_qa_histograms
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于分布的视觉问题回答数据集,包含了人类和大型语言/多模态模型(LMMs)的标注,由合成的单面板直方图图像、创建直方图的数据、边界框数据、轴和刻度标签的数据标记以及VQA问题-答案对组成。数据集分为三个部分,分别是小规模(80张图像)、大规模(500张图像)和复杂分布(100张图像)的直方图数据集。
创建时间:
2025-09-12
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 类型: 基于直方图的视觉问答(VQA)数据集
- 数据来源: 合成生成的单面板直方图图像
数据集内容
- 图像数据: 合成生成的直方图图像
- 辅助数据: 创建直方图所用的原始数据、标题/轴标签/刻度标签/数据标记的边界框数据
- 问答对: 视觉问答(VQA)问题-答案对
目录结构
- example_hists: 小型数据集(80张图像),视觉风格统一的直方图数据,包含多个问题的LMM标注
- example_hists_larger: 较大数据集(500张图像),统一的直方图图像
- example_hists_complex: 最大数据集(1000张图像),包含各种分布、形状、颜色等的直方图
标注信息
- 标注来源: 人类标注者和大语言/多模态模型(LMMs)
- 标注问题:
- "该图面板中数据的中值是多少?"
- "生成该图面板中绘图数据使用了多少个高斯分布?"
- 标注格式: 包含两个人类标注和两个LMM标注(gpt-5-nano, gpt-5-mini)
人类标注方式
- 平台: Zooniverse公民科学平台
- 标注任务:
- 高斯数量: 输入数字
- 中值: 先输入数字,再用线条工具绘制
- 标注准确性: 人类绘制的标注更准确
文件说明
- human_and_llm_annotated_data.csv: 包含人类和LMM标注数据的CSV文件
- LLM_outputs/: 包含ChatGPT-5各种试验输出的目录
- imgs/: 存储所有图像文件(同时提供imgs.zip压缩文件)
- jsons/: 存储边界框、图像创建数据、VQA数据的JSON文件
搜集汇总
数据集介绍

构建方式
在数据可视化领域,视觉问答任务对数据集的构建提出了更高要求。visual_qa_histograms数据集通过合成生成单面板直方图图像,系统性地采集了图像数据、直方图生成源数据、标题与坐标轴标注的边界框数据以及数据标记信息。该数据集采用人工标注与大型多模态模型标注相结合的方式,通过Zooniverse公民科学平台收集人类标注,同时利用ChatGPT-5系列模型生成机器标注,形成了多源标注的对比研究基础。
特点
该数据集展现出多维度特征优势,包含三个不同规模的子集:80个图像的基准集、500个图像的扩展集和1000个图像的复杂集,覆盖了均匀分布、多样分布形态和色彩变化的直方图类型。每个样本均配备完整的元数据,包括生成参数、视觉元素定位信息和多模态问答对。特别值得注意的是,数据集中提供了人类标注者与模型标注结果的直接对比,为研究标注一致性提供了宝贵资源。
使用方法
研究人员可通过解析标准化的JSON文件获取图像元数据和标注信息,利用配套的边界框数据实现视觉元素的精确定位。数据集支持多种应用场景:通过human_and_llm_annotated_data.csv文件可进行人类与模型标注对比分析;利用LLM_outputs目录中的记录可复现模型标注过程;结合imgs中的图像和jsons中的结构化数据,能够开展端到端的视觉问答模型训练与评估。
背景与挑战
背景概述
视觉问答领域在深度学习推动下迅速发展,但传统数据集多集中于自然图像理解。为拓展多模态推理的边界,ReadingTimeMachine团队于近期构建了visual_qa_histograms数据集,专注于统计图表中的直方图解析。该数据集通过合成生成的单面板直方图图像,结合人工与大语言模型标注的问答对,旨在探索模型对数据分布特征的深层理解能力。其创新性在于将视觉问答任务延伸至科学可视化领域,为评估模型在数据驱动推理方面的表现提供了重要基准。
当前挑战
直方图视觉问答面临双重挑战:领域问题层面需解决模型对统计图形语义解析的精确性,包括数据分布特征提取、坐标轴标签理解以及数值推理等复杂任务;构建过程中则需克服合成数据与真实统计特性的对齐难题,确保直方图数据生成的数学严谨性。同时,协调人类标注者与大语言模型的标注一致性,以及处理非标准图形元素(如多峰分布、异色柱体)带来的视觉变异,均为数据集构建的核心技术壁垒。
常用场景
经典使用场景
在数据可视化与多模态学习交叉领域,visual_qa_histograms数据集为评估模型对统计图形的语义理解能力提供了基准平台。其经典使用场景集中于让大型多模态模型解析合成生成的直方图图像,回答关于数据分布特征的量化问题,例如要求模型从直方图形中推断中位数数值或识别底层数据的高斯分布数量。
实际应用
在实际应用层面,该数据集支撑了自动化科学文献解析系统的开发,能够从学术论文的统计图表中提取关键数据指标。其合成直方图与真实标注的配对机制,可训练模型理解医学影像分析、社会科学统计报告中的分布特征,为构建智能科研助手提供了核心训练资源,显著提升了多模态模型在专业领域的应用精度。
衍生相关工作
基于该数据集衍生的经典工作包括多模态推理模型的对抗性测试框架,以及人类与LMM标注一致性研究。研究者通过对比人类绘制的median线条与模型数值输出,开发了视觉 grounding 验证算法;进一步催生了面向科学可视化的提示工程优化方法,推动了统计图形理解任务的标准评估范式形成。
以上内容由遇见数据集搜集并总结生成



