tqa

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/tqa

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从Textbook Question Answering (TQA)数据集派生出的数据集，专为ViDoRe基准测试而重新格式化了测试集的字段名。数据集中的`text_description`列包含了使用EasyOCR从图像中提取的OCR文本。此数据集是完整数据集的1000个随机行的子集。

This is a dataset derived from the Textbook Question Answering (TQA) dataset, with the field names of its test set reformatted specifically for the ViDoRe benchmark. The `text_description` column contains OCR text extracted from images using EasyOCR. This dataset is a subset of 1000 randomly selected rows from the full dataset.

创建时间：

2025-06-10

原始信息汇总

TQA数据集概述

数据集基本信息

来源：基于Textbook Question Answering dataset (TQA)的测试集重构
用途：专为ViDoRe基准测试设计
样本量：1,000条随机抽样数据（完整数据集可访问https://huggingface.co/datasets/jinaai/tqa-test）

数据结构

特征字段

query：文本类型(string)
image：图像类型(image)
image_filename：文本类型(string)
text_description：通过EasyOCR从图像提取的OCR文本(string)

数据划分

测试集(test)：
- 样本数量：1,000例
- 数据大小：179.36MB
- 下载大小：160.92MB

学术引用

bibtex @inproceedings{Kembhavi2017TQA, title={Are You Smarter Than A Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension}, author={Kembhavi, Aniruddha and Salvatori, Tommaso and Kolve, Eric and Mottaghi, Roozbeh and Schwenk, Dustin and Farhadi, Ali and Yatskar, Mark}, booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2017} }

版权声明

保留原始文档作者的所有权利
数据仅限研究及教育用途
侵权投诉联系：support-data (at) jina.ai

搜集汇总

数据集介绍

构建方式

TQA数据集源自教科书问答数据集（Textbook Question Answering dataset），经过重新格式化处理，特别针对测试集进行了字段名称的调整，以适应ViDoRe基准测试的需求。数据集中包含通过EasyOCR从图像中提取的OCR文本，存储于text_description字段。该版本数据集是从完整数据集中随机抽取的1000条样本，确保了数据的代表性和多样性。

特点

TQA数据集以其多模态特性著称，结合了文本查询、图像及对应的OCR文本描述，为机器理解任务提供了丰富的上下文信息。数据集的测试分割包含1000个样本，每个样本均经过精心标注，涵盖了广泛的学科领域，适合用于评估模型在复杂问答场景中的表现。其独特的结构设计使得研究者能够深入探索视觉与文本信息的融合机制。

使用方法

使用TQA数据集时，研究者可通过加载测试分割中的query、image和text_description字段，构建多模态问答任务。数据集兼容常见的机器学习框架，支持直接应用于视觉-语言模型的训练与评估。为保障研究的合规性，建议用户在使用前仔细阅读免责声明，并遵循原作者的版权要求。数据集的引用方式已在详情页明确标注，确保学术研究的规范性。

背景与挑战

背景概述

TQA数据集源自2017年由艾伦人工智能研究所（Allen Institute for AI）团队主导构建的教科书问答数据集，旨在推动多模态机器理解领域的研究。该数据集通过整合教科书中的图像与文本信息，构建了一个涵盖科学课程的复杂问答系统，其核心研究问题聚焦于如何让机器像六年级学生一样理解并回答教科书中的问题。作为CVPR会议收录的重要成果，该数据集为多模态学习、视觉问答等研究方向提供了基准测试平台，显著促进了跨模态表征学习的发展。

当前挑战

TQA数据集面临双重挑战：在领域问题层面，多模态对齐的复杂性导致模型难以准确关联视觉内容与文本问题，尤其当图像包含图表或专业符号时，OCR文本提取的误差会进一步降低问答系统的鲁棒性；在构建过程中，原始数据的标注需要教育领域专家参与，确保问题与答案符合课程知识体系，同时处理大规模教材图像涉及的版权清理与隐私过滤也增加了数据集构建的合规性难度。

常用场景

经典使用场景

在跨模态理解领域，TQA数据集作为教科书问答任务的基准测试集，被广泛用于评估模型对图文混合信息的理解能力。该数据集通过将教科书中的图表与对应问题结合，模拟了真实教育场景中学生需要同时解析视觉和文本信息的学习过程，为多模态机器学习提供了标准化的评估框架。

实际应用

在教育科技领域，TQA数据集支撑了智能辅导系统的开发，能够自动解答学生关于教科书内容的疑问。其图文结合的特性也被应用于数字出版行业，用于开发交互式电子教材，通过增强的内容理解能力提升学习体验。

衍生相关工作

基于TQA数据集的研究催生了一系列创新工作，包括多模态注意力机制、跨模态预训练模型和知识增强的视觉问答系统。这些工作不仅扩展了原始数据集的应用范围，还推动了ViDoRe等新型评测基准的建立，为多模态学习领域提供了持续的研究动力。

以上内容由遇见数据集搜集并总结生成