IQUAD V1
收藏github2018-09-06 更新2025-02-19 收录
下载链接:
https://github.com/danielgordon10/thor-iqa-cvpr-2018
下载链接
链接失效反馈官方服务:
资源简介:
IQUAD V1 是由华盛顿大学和艾伦人工智能研究院共同创建的交互式视觉问答数据集,旨在推动自主智能体在动态环境中通过交互完成问答任务的研究。该数据集基于 AI2-THOR 模拟环境构建,包含超过 75,000 个问答对,涵盖存在性、计数和空间关系三种问题类型。每个问题均对应独特的室内场景配置,平均每个场景包含 46 个物体,其中 21 个可交互。数据集通过模板自动生成问题和答案,确保无语言偏置。其创建过程依托高度逼真的 AI2-THOR 环境,支持智能体导航、物体交互等复杂任务。IQUAD V1 主要应用于交互式视觉问答领域,致力于解决智能体在复杂环境中自主探索、目标检测与语义理解等关键问题,为智能体的交互能力与动态环境适应性研究提供重要支撑。
IQUAD V1 is an interactive visual question answering (QA) dataset co-created by the University of Washington and the Allen Institute for Artificial Intelligence, aiming to advance research on autonomous agents completing question answering tasks through interaction in dynamic environments. Built on the AI2-THOR simulated environment, this dataset contains over 75,000 question-answer pairs covering three types of questions: existence, counting, and spatial relations. Each question corresponds to a unique indoor scene configuration, with an average of 46 objects per scene, 21 of which are interactable. The dataset automatically generates questions and answers via templates to eliminate language bias. Its development relies on the highly realistic AI2-THOR environment, which supports complex tasks such as agent navigation and object interaction. IQUAD V1 is primarily applied in the field of interactive visual QA, focusing on addressing key challenges including autonomous exploration, object detection and semantic understanding of agents in complex environments, providing critical support for research on agents' interactive capabilities and adaptability to dynamic environments.
提供机构:
华盛顿大学和艾伦人工智能研究院
创建时间:
2018-09-06
原始信息汇总
THOR-IQA-CVPR-2018 数据集概述
数据集简介
THOR-IQA-CVPR-2018 是一个用于训练和评估交互环境中视觉问答(Visual Question Answering, IQA)模型的代码库。该数据集包含了 IQUAD,即交互式问答数据集。
数据集结构
- questions 文件夹:包含训练和测试问题,分为三个子文件夹:
- train:前25个房间的训练问题
- unseen_scenes:剩余5个房间的测试问题
- seen_scenes:前25个房间的测试问题
- 每个子文件夹进一步细分为三种问题类型:
- data_existence:存在性问题,例如“房间里有一个杯子吗?”
- data_counting:计数问题,例如“房间里有多少个杯子?”
- data_contains:包含性问题,例如“冰箱里有杯子吗?”
每个文件夹包含 CSV 文件,列出自然语言问题的模板、答案以及自动提取的对象信息。
环境要求
- Python 3.5+
- Python VirtualEnv
- CUDA
- cuDNN
- Darknet (yolov3 分支)
兼容性
代码兼容以下配置:
- Python 3.5, 3.6, 可能兼容 Python 2.7
- CUDA 8, CUDA 9
- Ubuntu 14.04, Ubuntu 16.04, 可能兼容 Mac OSX
- TensorFlow 1.2 - 1.5
使用许可
THOR-IQA-CVPR-2018 代码遵循 Apache 2.0 许可。
引用信息
在使用该数据集的研究成果中,请引用以下论文:
@inproceedings{gordon2018iqa, title={IQA: Visual Question Answering in Interactive Environments}, author={Gordon, Daniel and Kembhavi, Aniruddha and Rastegari, Mohammad and Redmon, Joseph and Fox, Dieter and Farhadi, Ali}, booktitle={Computer Vision and Pattern Recognition (CVPR), 2018 IEEE Conference on}, year={2018}, organization={IEEE} }
搜集汇总
数据集介绍

构建方式
IQUAD V1数据集的构建方式涉及将自然语言问题与THOR环境中的交互式场景相结合。数据集包括训练和测试问题,分别位于THOR环境中的不同房间。每个问题类型均通过模板化的自然语言问题及其对应的答案进行构建,并辅以自动提取的对象信息,如重要对象ID,以及种子和场景编号,确保THOR环境的正确设置。
特点
该数据集的特点在于其问题类型的多样性,包括存在性、计数和包含性问题。此外,数据集提供了在未见过的房间上测试问题的能力,确保了模型的泛化性能。所有的问题和答案均以csv文件形式组织,并提供了hdf5文件以方便访问。数据集还兼容多种Python版本和操作系统,以及不同的CUDA和TensorFlow版本。
使用方法
使用IQUAD V1数据集首先需要设置THOR环境,通过提供的脚本安装必要的依赖和预训练权重。之后,用户可以根据需要训练不同的网络或控制器,如导航代理、语言模型或强化学习问答模型。评估模型性能时,用户需修改配置文件中的参数以匹配任务,并运行评估脚本。此外,数据集还提供了生成新问题的代码,以便用户创建自己的问题集。
背景与挑战
背景概述
IQUAD V1数据集,即交互式问题回答数据集,是在2018年计算机视觉与模式识别会议(CVPR)上发表的论文'IQA: Visual Question Answering in Interactive Environments'的配套数据集。该数据集由丹尼尔·戈登、阿尼鲁达·肯姆哈维、穆罕默德·拉斯特加里、约瑟夫·雷德蒙、迪特尔·福克斯和阿里·法拉哈迪等研究人员创建,旨在推动交互环境中视觉问题回答的研究。数据集涵盖了在THOR(AI2THOR)环境中捕捉的场景,并包含了一系列自然语言问题及其答案,这些问题主要涉及对象的存在性、计数和包含关系。IQUAD V1的构建对相关领域产生了显著影响,为视觉问答领域的研究提供了新的视角和资源。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1)如何确保问题与场景的匹配性,以及问题的可行性;2)如何处理大量的数据生成与标注工作;3)如何有效地训练和评估模型,特别是在复杂的交互环境中。在所解决的领域问题上,IQUAD V1面临着如何精确地理解和回答关于场景中对象的问题,这要求模型具备高级的视觉理解能力和自然语言处理能力。此外,数据集的多样性和复杂性也为模型的泛化能力提出了挑战。
常用场景
经典使用场景
IQUAD V1数据集,专注于交互式环境下的视觉问答,其经典使用场景在于训练与评估各种模型,以理解和回应自然语言形式的问题。通过该数据集,研究者能够构建模型,使其在虚拟环境中识别对象并计数,回答是否存在某个对象等问题。
实际应用
在实际应用中,IQUAD V1数据集的应用场景广泛,可应用于虚拟助手的开发,智能机器人导航,以及交互式游戏中的智能决策系统。这些应用能够提升系统的智能水平,增强用户体验。
衍生相关工作
基于IQUAD V1数据集,衍生出了众多相关工作,如深度强化学习在视觉问答中的应用,YOLO V3对象检测在虚拟环境中的应用,以及深度估计在交互式环境中的实现。这些工作进一步推动了交互式环境中视觉问答技术的发展。
以上内容由遇见数据集搜集并总结生成



