VisualHow

Name: VisualHow
Creator: OpenDataLab
Published: 2026-05-17 08:30:35
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/VisualHow

下载链接

链接失效反馈

官方服务：

资源简介：

计算机视觉 (CV) 和自然语言处理 (NLP) 的跨学科研究的最新进展使能够开发智能系统，该系统可以描述他们所看到的内容并相应地回答问题。然而，尽管在执行这些视觉语言任务中显示出有用性，但现有方法仍然难以理解现实生活中的问题 (即如何做某事)，并提出逐步指导来解决这些问题。为了开发智能系统以帮助人类进行各种日常活动，我们提出了VisualHow，这是一种自由形式和开放式的研究，重点是理解现实生活中的问题，并通过将关键组件纳入多种模式来得出其解决方案。我们开发了一个新的数据集，其中包含20,028现实生活中的问题和构成其解决方案的102,933步骤，其中每个步骤都由视觉插图和指导问题解决的文本描述组成。为了更好地理解问题和解决方案，我们还提供了多模态注意的注释，这些注释将重要的组件定位在模态和解决方案图之间，这些模态和解决方案图将不同步骤封装在结构化表示中。这些数据和注释使一系列新的视觉语言任务能够解决现实生活中的问题。通过对代表性模型的广泛实验，我们证明了它们对新任务的训练和测试模型的有效性，并且通过学习有效的注意机制有很大的改进空间。

提供机构：

OpenDataLab

创建时间：

2023-02-13

搜集汇总

数据集介绍