plotqa
收藏Hugging Face2025-06-24 更新2025-06-25 收录
下载链接:
https://huggingface.co/datasets/jinaai/plotqa
下载链接
链接失效反馈官方服务:
资源简介:
PlotQA数据集是一个包含从PlotQA测试集中抽取的问题的数据集。它通过使用LLM模型来验证问题的质量,例如过滤掉像'有多少种不同颜色的点线'这样的问题。数据集中的'text_description'列包含了使用EasyOCR从图像中提取的OCR文本。这个数据集版本限制为1000个随机行,而包含10000行的较大版本可以在其他地方找到。数据集语言为英语。
The PlotQA Dataset is a collection of questions sampled from the PlotQA test set. It utilizes LLM models to validate the quality of questions, such as filtering out questions like "How many distinct colored dotted lines are there?". The "text_description" column in the dataset contains OCR text extracted from images using EasyOCR. This specific dataset version is limited to 1000 random rows, while the larger variant containing 10,000 rows can be found elsewhere. The dataset is in English.
创建时间:
2025-06-10
原始信息汇总
PlotQA数据集概述
数据集基本信息
- 语言: 英文
- 下载大小: 27,928,325字节
- 数据集大小: 29,414,670字节
- 测试集样本数: 1,000
数据集特征
- query: 字符串类型,表示问题
- image: 图像类型
- image_filename: 字符串类型,表示图像文件名
- answer: 字符串类型,表示答案
- text_description: 字符串类型,包含使用EasyOCR从图像中提取的OCR文本
数据集来源
- 问题来源于PlotQA测试集的子样本
- 经过LLM分类过程验证问题质量
数据集版本
- 当前版本包含1,000个随机样本
- 更大版本(10,000个样本)可在此处获取
示例数据
python { query: Is it the case that in every year, the sum of the coal rent and natural gas rent is greater than the sum of oil rent and rent of other minerals ?, image: <PIL.PngImagePlugin.PngImageFile image mode=RGB size=1024x650 at 0x75FA311FF970>, image_filename: /shared/plotqa/20322.png, answer: No }
免责声明
- 数据集可能包含公开可用的图像或文本数据
- 所有数据仅供研究和教育用途
- 如有版权问题,请联系"support-data (at) jina.ai"
版权信息
- 所有权利归文档原作者所有
搜集汇总
数据集介绍

构建方式
PlotQA数据集源自PlotQA测试集的子样本,经过精心筛选以确保问题质量。采用大型语言模型(LLM)对原始问题进行分类验证,过滤掉不符合标准的问题,例如涉及模糊描述的查询。此外,通过EasyOCR技术从图像中提取OCR文本,存储于text_description字段中,为视觉问答任务提供多模态支持。该版本包含1000个随机样本,更大规模的版本则包含10000个样本。
特点
PlotQA数据集以视觉问答为核心,涵盖查询、图像、文本描述及标准答案等多模态特征。其图像内容多样,涉及图表、图形等复杂视觉元素,而问题设计则注重逻辑性与可验证性。通过OCR技术提取的文本描述增强了数据的可解释性,为模型理解图像内容提供了辅助信息。数据集语言为英语,适用于跨模态推理任务的研究与评估。
使用方法
使用PlotQA数据集时,可通过HuggingFace平台直接加载,获取包含查询、图像、文本描述及答案的结构化数据。研究人员可利用该数据集训练或评估视觉问答模型,结合图像与文本信息进行多模态推理。对于图像处理,建议使用PIL库进行加载与预处理,而文本字段则可直接用于自然语言处理模块。数据集的子样本设计便于快速验证模型性能,而完整版本则适合大规模实验。
背景与挑战
背景概述
PlotQA数据集由Nitesh Methani等人开发,旨在解决视觉问答(VQA)领域中对图表理解的核心研究问题。该数据集专注于从图表图像中提取信息并回答复杂的自然语言问题,为数据可视化和自然语言处理的交叉研究提供了重要资源。其创建基于对现有VQA数据集的扩展,特别强调对统计图表的多层次语义解析,推动了自动化图表分析技术的发展。
当前挑战
PlotQA面临的主要挑战包括两方面:在领域问题层面,图表问答需要模型同时具备视觉特征提取、文本语义理解和逻辑推理能力,这对现有多模态模型提出了极高要求;在构建过程中,数据质量把控尤为困难,需通过LLM筛选过滤低质量问题,且图表图像的多样性和问题复杂性导致标注成本显著增加。此外,OCR文本提取的准确性直接影响问答性能,这对预处理技术提出了额外挑战。
常用场景
经典使用场景
在数据可视化与自然语言处理的交叉领域,PlotQA数据集为研究图表理解与问答任务提供了标准化的测试平台。其独特的图像-问题-答案三元组结构,特别适合评估模型从复杂统计图表中提取信息并回答定量问题的能力,例如折线图趋势分析或柱状图数值比较。该数据集常被用于验证多模态模型在视觉推理任务中的表现,成为衡量模型图表理解深度的基准工具。
实际应用
在实际应用层面,PlotQA支持智能报表系统的开发,使企业能够通过自然语言交互快速获取商业洞察。金融分析领域可借助该数据集训练模型自动解读股票走势图,而科研机构则利用其构建文献图表智能检索系统。教育科技公司将其应用于自适应学习平台,帮助学生通过对话方式理解复杂的统计图表。
衍生相关工作
围绕PlotQA衍生的研究显著推进了多模态学习的发展,催生了如ChartBERT等专门处理图表数据的预训练模型。基于该数据集的基准测试已成为ACL等顶会的热门评估标准,相关研究论文在视觉问答领域产生广泛影响。部分工作进一步扩展了原始数据集,增加了对三维图表和动态可视化的支持。
以上内容由遇见数据集搜集并总结生成



