ViSTa|视觉语言模型数据集|强化学习数据集

arXiv2024-11-22 更新2024-11-22 收录

视觉语言模型

强化学习

下载链接：

https://github.com/Eugleo/vista-dataset

下载链接

链接失效反馈

资源简介：

ViSTa数据集由Google DeepMind创建，旨在评估视觉语言模型（VLM）对顺序任务的理解能力。该数据集包含超过4000个视频，涵盖虚拟家庭、Minecraft和现实世界三种环境，视频配有逐步描述。数据集采用分层结构，从基本的单步任务逐渐组合成更复杂的顺序任务，以细粒度地测试VLM在不同复杂度任务中的表现。创建过程中，数据集结合了现有数据集的视频，并通过手动拍摄和编辑增加了新的视频。ViSTa主要应用于强化学习中，旨在解决VLM作为奖励模型在顺序任务中的应用问题。

提供机构：

Google DeepMind

创建时间：

2024-11-20

原始信息汇总

ViSTa 数据集概述

数据集简介

ViSTa 是一个用于评估视觉-语言模型对顺序任务理解的基准数据集。该数据集包含超过 4,000 个视频，涵盖虚拟家庭、Minecraft 和真实世界环境中的逐步描述。数据集具有层次结构，从基本的单步任务逐渐组合成更复杂的顺序任务。

数据集结构

视频数量: 超过 4,000 个视频
环境: 虚拟家庭、Minecraft、真实世界
层次结构: 从单步任务到多步任务，级别从 1 到 8

数据集内容

视频级别

Level 1: 单步任务视频，测试基本动作识别
Level 2 至 Level 8: 多步任务视频，测试动作顺序理解

问题集

Objects: 测试对象识别
Object properties: 测试对象属性检测
Actions: 测试特定动作理解
General problems: 测试一般顺序任务理解
Permutation problems: 测试动作顺序理解

数据集下载

视频: 可从 Google Cloud Storage 下载
元数据表和问题集: 位于 data/ 目录下

数据集使用

元数据表字段:
- video: 视频文件路径
- description: 视频描述
- level: 视频级别
- environment: 录制环境
- problem_set_type: 问题集类型
- problem_set_id: 问题集标识符

环境

Virtual home: 包含超过 3,000 个视频，主要来自 ALFRED 数据集
Real world: 包含超过 1,100 个视频，部分来自 Kinetics-700 数据集
Minecraft: 包含 53 个视频，部分来自 BASALT 基准

当前视觉-语言模型评估结果

评估模型: CLIP、ViCLIP、GPT-4o
结果: GPT-4o 表现优于开源模型，所有模型在对象识别上表现良好，但在对象属性和动作识别上表现较差，无法很好地理解任务序列。

AI搜集汇总

数据集介绍

构建方式

ViSTa数据集的构建旨在评估视觉语言模型（VLMs）在理解序列任务方面的能力。该数据集包含超过4,000个视频，涵盖虚拟家庭、Minecraft和真实世界三种环境，每个视频都配有详细的步骤描述。ViSTa采用了一种层次结构，从基本的单步任务逐渐组合成更复杂的序列任务，这种结构使得能够细致地评估VLMs在不同复杂度任务中的表现。数据集的构建过程中，部分视频来源于现有的ALFRED数据集，并通过重新混合和编辑生成新的视频，以确保测试特定能力的视频集的多样性和复杂性。

使用方法

ViSTa数据集适用于评估和训练视觉语言模型在序列任务中的表现。使用该数据集时，研究人员可以将视频和描述对输入模型，通过模型对视频内容的理解和描述匹配程度来评估其性能。具体方法包括使用模型生成视频的描述，然后与数据集中的描述进行对比，计算匹配度。此外，数据集的分层结构和问题集设计使得可以针对模型的特定能力进行有针对性的训练和评估，从而优化模型在复杂任务中的表现。

背景与挑战

背景概述

ViSTa数据集由Evžen Wybitul、Evan Ryan Gunter、Mikhail Seleznyov和David Lindner等研究人员于2024年创建，旨在评估视觉语言模型（VLMs）在理解顺序任务方面的能力。该数据集包含超过4,000个视频，涵盖虚拟家庭、Minecraft和真实世界环境中的步骤描述。ViSTa的独特层次结构由基本的单步任务组成，逐渐组合成更复杂的顺序任务，从而能够细致地理解VLMs在处理不同复杂度任务时的表现。该数据集的引入对强化学习领域具有重要意义，特别是在使用VLMs作为奖励模型以降低成本和提高安全性方面。

当前挑战

ViSTa数据集面临的挑战主要集中在两个方面。首先，构建过程中遇到的挑战包括在不同环境中生成和编辑视频，确保视频的逻辑连贯性和视觉一致性。其次，该数据集旨在解决的领域问题是评估VLMs在顺序任务中的表现，特别是它们是否能够理解任务的顺序和复杂性。当前的研究表明，尽管VLMs在物体识别方面表现出色，但在理解顺序任务方面仍存在显著不足，这限制了它们在复杂任务监督中的应用潜力。

常用场景

经典使用场景

ViSTa数据集的经典使用场景在于评估视觉语言模型（VLMs）在理解序列任务中的能力。通过提供超过4,000个视频及其逐步描述，ViSTa允许研究人员细致地测试VLMs在虚拟家庭、Minecraft和现实世界环境中的表现。其独特的层次结构——从基本的单步任务到越来越复杂的序列任务——使得能够精确评估VLMs在不同复杂度任务中的表现。

解决学术问题

ViSTa数据集解决了学术界在评估视觉语言模型（VLMs）理解序列任务能力方面的常见问题。传统上，VLMs主要用于目标导向任务，而ViSTa通过提供详细的序列任务描述，填补了这一空白。这不仅有助于理解VLMs在复杂任务中的表现，还为开发更可靠和高效的强化学习奖励模型提供了基础。

实际应用

ViSTa数据集在实际应用中具有广泛潜力，特别是在需要复杂序列决策的领域，如机器人学和游戏设计。通过使用ViSTa训练和评估模型，开发者可以创建能够理解和执行多步骤任务的智能系统，从而提高自动化和智能化的水平。此外，ViSTa还可以用于开发更安全和成本效益更高的强化学习系统。

数据集最近研究

相关研究论文

1
ViSTa Dataset: Do vision-language models understand sequential tasks?Google DeepMind · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集，用于评估音乐信息检索中的多个任务。它包含 343 天的音频，来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑，按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能，以及轨道和用户级元数据、标签和自由格式的文本，例如传记。作者定义了四个子集：Full：完整数据集，Large：音频限制为 30 秒的完整数据集从轨道中间提取的剪辑（如果短于 30 秒，则为整个轨道），Medium：选择25,000 个具有单一根流派的 30 年代剪辑，小：一个平衡的子集，包含 8,000 个 30 年代剪辑，其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集（80/10/10）使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源：FMA：音乐分析数据集

OpenDataLab 收录

中国30米分辨率土壤可蚀性因子数据集

该数据集为2018年中国30米分辨率土壤可蚀性因子（K）栅格数据，数据是利用中国1979-1994年的全国第二次土壤普查的成果数据进行计算；再利用径流小区观测数据修正计算结果；将修订结果利用反距离权重插值法插值生成栅格数据。特殊地类河湖库塘、冰川及永久积雪、裸岩土地类型K因子值强制赋值为0。如果用户采用的土地利用精度较高，建议重新对以下土地类型的K因子强制赋值为0：河湖库塘、冰川及永久积雪、裸岩。如果有K值为0，但不属于上述类型的，K因子可按如下原则：取邻近相同土地类型图斑的K值，或取与该图斑邻近且不等于0的所有图斑K值的平均值。

国家地球系统科学数据中心收录

EmoBench-M

EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集，旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论，包含13个评估场景，涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据，为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录