five

VisualHow

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/VisualHow
下载链接
链接失效反馈
官方服务:
资源简介:
计算机视觉 (CV) 和自然语言处理 (NLP) 的跨学科研究的最新进展使能够开发智能系统,该系统可以描述他们所看到的内容并相应地回答问题。然而,尽管在执行这些视觉语言任务中显示出有用性,但现有方法仍然难以理解现实生活中的问题 (即如何做某事),并提出逐步指导来解决这些问题。为了开发智能系统以帮助人类进行各种日常活动,我们提出了VisualHow,这是一种自由形式和开放式的研究,重点是理解现实生活中的问题,并通过将关键组件纳入多种模式来得出其解决方案。我们开发了一个新的数据集,其中包含20,028现实生活中的问题和构成其解决方案的102,933步骤,其中每个步骤都由视觉插图和指导问题解决的文本描述组成。为了更好地理解问题和解决方案,我们还提供了多模态注意的注释,这些注释将重要的组件定位在模态和解决方案图之间,这些模态和解决方案图将不同步骤封装在结构化表示中。这些数据和注释使一系列新的视觉语言任务能够解决现实生活中的问题。通过对代表性模型的广泛实验,我们证明了它们对新任务的训练和测试模型的有效性,并且通过学习有效的注意机制有很大的改进空间。
提供机构:
OpenDataLab
创建时间:
2023-02-13
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
VisualHow是一个多模态数据集,专注于解决现实生活中的问题,包含超过2万个问题和10万多个步骤,每个步骤都配有视觉插图和文本描述。该数据集还提供了多模态注意注释和解决方案图,用于支持计算机视觉与自然语言处理交叉领域的新任务研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作