five

IQUAD V1|交互式视觉问答数据集|智能体导航数据集

收藏
github2018-09-06 更新2025-02-19 收录
交互式视觉问答
智能体导航
下载链接:
https://github.com/danielgordon10/thor-iqa-cvpr-2018
下载链接
链接失效反馈
资源简介:
IQUAD V1 是由华盛顿大学和艾伦人工智能研究院共同创建的交互式视觉问答数据集,旨在推动自主智能体在动态环境中通过交互完成问答任务的研究。该数据集基于 AI2-THOR 模拟环境构建,包含超过 75,000 个问答对,涵盖存在性、计数和空间关系三种问题类型。每个问题均对应独特的室内场景配置,平均每个场景包含 46 个物体,其中 21 个可交互。数据集通过模板自动生成问题和答案,确保无语言偏置。其创建过程依托高度逼真的 AI2-THOR 环境,支持智能体导航、物体交互等复杂任务。IQUAD V1 主要应用于交互式视觉问答领域,致力于解决智能体在复杂环境中自主探索、目标检测与语义理解等关键问题,为智能体的交互能力与动态环境适应性研究提供重要支撑。
提供机构:
华盛顿大学和艾伦人工智能研究院
创建时间:
2018-09-06
原始信息汇总

THOR-IQA-CVPR-2018 数据集概述

数据集简介

THOR-IQA-CVPR-2018 是一个用于训练和评估交互环境中视觉问答(Visual Question Answering, IQA)模型的代码库。该数据集包含了 IQUAD,即交互式问答数据集。

数据集结构

  • questions 文件夹:包含训练和测试问题,分为三个子文件夹:
    • train:前25个房间的训练问题
    • unseen_scenes:剩余5个房间的测试问题
    • seen_scenes:前25个房间的测试问题
  • 每个子文件夹进一步细分为三种问题类型:
    • data_existence:存在性问题,例如“房间里有一个杯子吗?”
    • data_counting:计数问题,例如“房间里有多少个杯子?”
    • data_contains:包含性问题,例如“冰箱里有杯子吗?”

每个文件夹包含 CSV 文件,列出自然语言问题的模板、答案以及自动提取的对象信息。

环境要求

  • Python 3.5+
  • Python VirtualEnv
  • CUDA
  • cuDNN
  • Darknet (yolov3 分支)

兼容性

代码兼容以下配置:

  • Python 3.5, 3.6, 可能兼容 Python 2.7
  • CUDA 8, CUDA 9
  • Ubuntu 14.04, Ubuntu 16.04, 可能兼容 Mac OSX
  • TensorFlow 1.2 - 1.5

使用许可

THOR-IQA-CVPR-2018 代码遵循 Apache 2.0 许可。

引用信息

在使用该数据集的研究成果中,请引用以下论文:

@inproceedings{gordon2018iqa, title={IQA: Visual Question Answering in Interactive Environments}, author={Gordon, Daniel and Kembhavi, Aniruddha and Rastegari, Mohammad and Redmon, Joseph and Fox, Dieter and Farhadi, Ali}, booktitle={Computer Vision and Pattern Recognition (CVPR), 2018 IEEE Conference on}, year={2018}, organization={IEEE} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
IQUAD V1数据集的构建方式涉及将自然语言问题与THOR环境中的交互式场景相结合。数据集包括训练和测试问题,分别位于THOR环境中的不同房间。每个问题类型均通过模板化的自然语言问题及其对应的答案进行构建,并辅以自动提取的对象信息,如重要对象ID,以及种子和场景编号,确保THOR环境的正确设置。
特点
该数据集的特点在于其问题类型的多样性,包括存在性、计数和包含性问题。此外,数据集提供了在未见过的房间上测试问题的能力,确保了模型的泛化性能。所有的问题和答案均以csv文件形式组织,并提供了hdf5文件以方便访问。数据集还兼容多种Python版本和操作系统,以及不同的CUDA和TensorFlow版本。
使用方法
使用IQUAD V1数据集首先需要设置THOR环境,通过提供的脚本安装必要的依赖和预训练权重。之后,用户可以根据需要训练不同的网络或控制器,如导航代理、语言模型或强化学习问答模型。评估模型性能时,用户需修改配置文件中的参数以匹配任务,并运行评估脚本。此外,数据集还提供了生成新问题的代码,以便用户创建自己的问题集。
背景与挑战
背景概述
IQUAD V1数据集,即交互式问题回答数据集,是在2018年计算机视觉与模式识别会议(CVPR)上发表的论文'IQA: Visual Question Answering in Interactive Environments'的配套数据集。该数据集由丹尼尔·戈登、阿尼鲁达·肯姆哈维、穆罕默德·拉斯特加里、约瑟夫·雷德蒙、迪特尔·福克斯和阿里·法拉哈迪等研究人员创建,旨在推动交互环境中视觉问题回答的研究。数据集涵盖了在THOR(AI2THOR)环境中捕捉的场景,并包含了一系列自然语言问题及其答案,这些问题主要涉及对象的存在性、计数和包含关系。IQUAD V1的构建对相关领域产生了显著影响,为视觉问答领域的研究提供了新的视角和资源。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1)如何确保问题与场景的匹配性,以及问题的可行性;2)如何处理大量的数据生成与标注工作;3)如何有效地训练和评估模型,特别是在复杂的交互环境中。在所解决的领域问题上,IQUAD V1面临着如何精确地理解和回答关于场景中对象的问题,这要求模型具备高级的视觉理解能力和自然语言处理能力。此外,数据集的多样性和复杂性也为模型的泛化能力提出了挑战。
常用场景
经典使用场景
IQUAD V1数据集,专注于交互式环境下的视觉问答,其经典使用场景在于训练与评估各种模型,以理解和回应自然语言形式的问题。通过该数据集,研究者能够构建模型,使其在虚拟环境中识别对象并计数,回答是否存在某个对象等问题。
实际应用
在实际应用中,IQUAD V1数据集的应用场景广泛,可应用于虚拟助手的开发,智能机器人导航,以及交互式游戏中的智能决策系统。这些应用能够提升系统的智能水平,增强用户体验。
衍生相关工作
基于IQUAD V1数据集,衍生出了众多相关工作,如深度强化学习在视觉问答中的应用,YOLO V3对象检测在虚拟环境中的应用,以及深度估计在交互式环境中的实现。这些工作进一步推动了交互式环境中视觉问答技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录