Visual Genome|视觉问答数据集|图像理解数据集

Papers with Code2024-05-15 收录

视觉问答

图像理解

下载链接：

https://paperswithcode.com/dataset/visual-genome

下载链接

链接失效反馈

资源简介：

Visual Genome contains Visual Question Answering data in a multi-choice setting. It consists of 101,174 images from MSCOCO with 1.7 million QA pairs, 17 questions per image on average. Compared to the Visual Question Answering dataset, Visual Genome represents a more balanced distribution over 6 question types: What, Where, When, Who, Why and How. The Visual Genome dataset also presents 108K images with densely annotated objects, attributes and relationships.

AI搜集汇总

数据集介绍

构建方式

Visual Genome数据集的构建基于对大量图像的深度分析与标注。研究团队首先收集了超过10万张图像，涵盖了广泛的场景和对象。随后，通过人工标注和自动化工具相结合的方式，对每张图像中的对象、属性、关系和场景描述进行了详细的标注。这一过程不仅包括对象的识别，还涉及对象之间的空间关系和语义关系的标注，从而构建了一个多层次、多维度的图像理解数据集。

特点

Visual Genome数据集的显著特点在于其丰富的语义信息和多层次的结构。该数据集不仅包含了对象的类别和位置信息，还详细记录了对象之间的复杂关系，如空间关系、动作关系和属性关系。此外，数据集中的每张图像都附有详细的场景描述，使得研究者能够深入理解图像的上下文信息。这种多维度的标注方式为图像理解、视觉问答和图像生成等任务提供了强大的数据支持。

使用方法

Visual Genome数据集适用于多种计算机视觉和自然语言处理任务。研究者可以利用该数据集进行对象检测、关系提取、场景理解等基础任务的训练和评估。此外，数据集中的丰富语义信息和多层次标注使其成为视觉问答（VQA）和图像描述生成等高级任务的理想选择。通过结合图像和文本信息，研究者可以开发出更加智能和复杂的视觉理解系统。

背景与挑战

背景概述

Visual Genome，由斯坦福大学于2016年创建，由Ranjay Krishna和Li Fei-Fei领导的研究团队开发，旨在为计算机视觉和自然语言处理领域提供一个综合性的数据集。该数据集的核心研究问题是如何将图像中的视觉内容与语言描述相结合，以实现更深层次的图像理解和语义解析。Visual Genome包含了超过10万张图像，每张图像都配有详细的物体、属性、关系和场景描述，极大地推动了图像语义理解的研究进展，为后续的多模态学习提供了丰富的资源。

当前挑战

尽管Visual Genome在图像与语言结合的研究中取得了显著成果，但其构建过程中仍面临诸多挑战。首先，数据集的标注工作复杂且耗时，需要大量的人工参与以确保标注的准确性和一致性。其次，图像中的多层次语义信息提取，如物体识别、属性描述和关系推理，对算法提出了高要求。此外，如何有效地整合和利用这些多模态数据，以提升模型的泛化能力和应用场景的多样性，仍是当前研究的重要课题。

发展历史

创建时间与更新

Visual Genome数据集由斯坦福大学的研究人员于2016年创建，旨在为计算机视觉和自然语言处理领域提供一个综合性的资源。该数据集在创建后经过多次更新，以确保其内容的时效性和准确性。

重要里程碑

Visual Genome数据集的一个重要里程碑是其首次整合了图像、对象、属性、关系和场景描述等多维度信息，极大地丰富了计算机视觉模型的训练数据。此外，该数据集还引入了自然语言描述，使得图像与文本之间的关联性得以深入研究。这一创新为后续的多模态学习研究奠定了基础，推动了图像理解与语言生成技术的融合发展。

当前发展情况

当前，Visual Genome数据集已成为计算机视觉和自然语言处理领域的重要基准之一。其丰富的多模态数据为研究者提供了广泛的应用场景，包括图像标注、视觉问答、场景理解等。该数据集的持续更新和扩展，不仅推动了相关技术的进步，还促进了跨学科研究的深入发展。Visual Genome的成功应用，展示了多模态数据在人工智能领域中的巨大潜力，为未来的研究方向提供了宝贵的参考。

发展历程

Visual Genome数据集首次发表，由斯坦福大学研究团队发布，旨在提供一个包含图像、对象、属性、关系和场景描述的综合性视觉数据集。
2016年
Visual Genome数据集首次应用于图像理解任务，特别是在视觉问答（VQA）和图像描述生成领域，显著提升了模型的性能。
2017年
Visual Genome数据集被广泛用于多个计算机视觉和自然语言处理的研究项目，成为该领域的重要基准数据集之一。
2018年
Visual Genome数据集的扩展版本发布，增加了更多的图像和详细的语义信息，进一步丰富了数据集的内容。
2019年
Visual Genome数据集在多个国际会议和期刊上被引用和讨论，成为视觉与语言交叉研究的重要资源。
2020年

常用场景

经典使用场景

在计算机视觉领域，Visual Genome数据集以其丰富的图像和详细的语义标注而著称。该数据集广泛应用于图像理解任务，如物体检测、场景解析和视觉问答。通过提供大量的图像及其对应的物体、属性、关系和场景描述，Visual Genome为研究人员提供了一个全面的资源，以训练和评估复杂的视觉模型。

解决学术问题

Visual Genome数据集解决了计算机视觉领域中长期存在的语义鸿沟问题。传统的图像数据集往往只关注物体识别，而忽略了物体间的复杂关系和上下文信息。Visual Genome通过引入详细的语义标注，使得模型能够更好地理解图像中的复杂场景和物体间的互动，从而推动了视觉理解技术的发展。

衍生相关工作

基于Visual Genome数据集，许多经典的工作得以展开。例如，研究人员开发了基于视觉问答（VQA）的模型，通过结合图像和自然语言处理技术，使得计算机能够回答关于图像内容的复杂问题。此外，还有工作利用该数据集进行场景图生成，进一步推动了图像理解和生成技术的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章，旨在用于微调大型语言模型，以预测新闻发布后的股票价格变动。数据集包括多个特征，如股票代码、提示、文本、URL、结果、相关性、令牌计数等，并分为训练集、验证集和测试集。

hugging_face 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集，分为102个类别，共102种花卉，其中每个类别包含40到258幅图像。该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录