five

vidore/infovqa_test_subsampled

收藏
Hugging Face2024-06-27 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/vidore/infovqa_test_subsampled
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从InfoVQA数据集中提取的测试集,包含了从互联网上收集的信息图表,并手动标注了问题和答案。为了确保基准数据集的一致性,原始测试集被抽样到500对,并重命名了不同的列。每个数据实例包含多个特征,如questionId(问题ID)、query(查询)、image(图像)等。

This is the test set taken from the InfoVQA dataset, which includes infographics collected from the Internet using the search query infographics. Questions and answers were manually annotated. To ensure homogeneity across our benchmarked datasets, we subsampled the original test set to 500 pairs and renamed the different columns. Each instance in the dataset contains multiple features such as questionId, query, image, etc.
提供机构:
vidore
原始信息汇总

数据集概述

数据集描述

  • 来源: 该数据集是从InfoVQA数据集中提取的测试集,包含通过搜索查询“infographics”从互联网收集的信息图表。问题和答案均为手动标注。

数据结构

  • 特征:
    • questionId: 问题ID,类型为字符串。
    • query: 查询内容,类型为字符串。
    • answer: 答案,类型为空。
    • answer_type: 答案类型,类型为空。
    • image: 图像,类型为图像。
    • image_filename: 图像文件名,类型为字符串。
    • operation/reasoning: 操作/推理,类型为空。
    • ocr: OCR文本,类型为字符串。
    • data_split: 数据分割,类型为字符串。
    • source: 数据来源,类型为字符串。

数据分割

  • 测试集:
    • test: 包含500个样本,总大小为277995931字节。

数据集大小

  • 下载大小: 218577138字节。
  • 数据集大小: 277995931字节。

数据加载

  • 加载方式: python from datasets import load_dataset ds = load_dataset("vidore/infovqa_test_subsampled", split="test")

引用信息

  • 引用格式: latex @misc{mathew_infographicvqa_2021, title = {{InfographicVQA}}, copyright = {arXiv.org perpetual, non-exclusive license}, url = {https://arxiv.org/abs/2104.12756}, doi = {10.48550/ARXIV.2104.12756}, urldate = {2024-06-02}, publisher = {arXiv}, author = {Mathew, Minesh and Bagal, Viraj and Tito, Rubèn Pérez and Karatzas, Dimosthenis and Valveny, Ernest and Jawahar, C. V}, year = {2021}, note = {Version Number: 2}, keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, Computer Vision and Pattern Recognition (cs.CV)}, }
搜集汇总
数据集介绍
main_image_url
构建方式
vidore/infovqa_test_subsampled数据集源自InfoVQA数据集,该数据集专注于信息图表(infographics)的视觉问答任务。为确保数据集的统一性和可比性,原始测试集被下采样至500对问答对,并对各列进行了重命名。数据集中的图像通过互联网搜索关键词“infographics”收集,问题和答案则经过人工标注,确保了数据的质量和准确性。
特点
该数据集的主要特点在于其专注于信息图表的视觉问答,结合了图像和文本信息,为研究者提供了一个独特的多模态数据集。数据集包含图像、问题、OCR文本等特征,尽管答案和答案类型字段当前为空,但为未来的标注和扩展提供了灵活性。此外,数据集的结构清晰,便于直接用于视觉问答模型的训练和评估。
使用方法
使用vidore/infovqa_test_subsampled数据集时,研究者可以通过HuggingFace的datasets库轻松加载数据。具体方法为调用load_dataset函数,指定数据集名称和分割(如'test')。加载后的数据集可以直接用于模型训练、评估或进一步的数据分析。由于数据集结构明确,研究者可以根据需要提取和处理特定字段,如图像、问题和OCR文本,以适应不同的研究需求。
背景与挑战
背景概述
vidore/infovqa_test_subsampled数据集源自于2021年由Mathew等人创建的InfographicVQA数据集,该数据集专注于信息图表视觉问答(VQA)任务。InfographicVQA数据集通过互联网收集信息图表,并手动注释问题和答案,旨在推动计算机视觉与自然语言处理领域的交叉研究。vidore/infovqa_test_subsampled是原始测试集的一个子样本,包含500对问题和图像,经过重新命名和结构化处理,以确保与其他基准数据集的同质性。该数据集的发布为研究者提供了一个标准化的测试平台,促进了信息图表理解与问答系统的研究进展。
当前挑战
vidore/infovqa_test_subsampled数据集面临的主要挑战包括:首先,信息图表的复杂性和多样性使得图像理解和问题解答变得尤为困难,要求模型具备高度的视觉和语言理解能力。其次,数据集在构建过程中,如何确保子样本的代表性和均匀性是一个重要问题,这直接影响到模型的泛化能力和评估的准确性。此外,尽管数据集提供了OCR信息,但如何有效整合这些信息以提升问答系统的性能仍是一个待解决的难题。
常用场景
经典使用场景
vidore/infovqa_test_subsampled数据集的经典使用场景主要集中在视觉问答(VQA)领域,特别是在处理信息图表(infographics)时。该数据集通过提供图像、问题和对应的OCR文本,帮助研究者和开发者训练和评估模型在信息图表上的问答能力。这种场景特别适用于需要从复杂视觉信息中提取并理解关键内容的应用,如自动文档理解、信息图表解析等。
实际应用
在实际应用中,vidore/infovqa_test_subsampled数据集可以用于开发智能文档处理系统,这些系统能够自动解析和理解信息图表中的内容,从而提高文档处理的效率和准确性。此外,该数据集还可应用于教育、金融和医疗等领域,帮助用户快速获取和理解复杂的信息图表数据,提升决策支持系统的智能化水平。
衍生相关工作
基于vidore/infovqa_test_subsampled数据集,研究者们开发了多种相关的经典工作,包括改进的视觉问答模型、信息图表解析算法以及多模态学习方法。这些工作不仅提升了模型在信息图表上的问答性能,还推动了多模态数据处理技术的发展。例如,一些研究通过结合OCR技术和深度学习模型,显著提高了从信息图表中提取信息的准确性和效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作