ViSTa|视觉语言模型数据集|强化学习数据集
收藏ViSTa 数据集概述
数据集简介
ViSTa 是一个用于评估视觉-语言模型对顺序任务理解的基准数据集。该数据集包含超过 4,000 个视频,涵盖虚拟家庭、Minecraft 和真实世界环境中的逐步描述。数据集具有层次结构,从基本的单步任务逐渐组合成更复杂的顺序任务。
数据集结构
- 视频数量: 超过 4,000 个视频
- 环境: 虚拟家庭、Minecraft、真实世界
- 层次结构: 从单步任务到多步任务,级别从 1 到 8
数据集内容
视频级别
- Level 1: 单步任务视频,测试基本动作识别
- Level 2 至 Level 8: 多步任务视频,测试动作顺序理解
问题集
- Objects: 测试对象识别
- Object properties: 测试对象属性检测
- Actions: 测试特定动作理解
- General problems: 测试一般顺序任务理解
- Permutation problems: 测试动作顺序理解
数据集下载
- 视频: 可从 Google Cloud Storage 下载
- 元数据表和问题集: 位于
data/
目录下
数据集使用
- 元数据表字段:
video
: 视频文件路径description
: 视频描述level
: 视频级别environment
: 录制环境problem_set_type
: 问题集类型problem_set_id
: 问题集标识符
环境
- Virtual home: 包含超过 3,000 个视频,主要来自 ALFRED 数据集
- Real world: 包含超过 1,100 个视频,部分来自 Kinetics-700 数据集
- Minecraft: 包含 53 个视频,部分来自 BASALT 基准
当前视觉-语言模型评估结果
- 评估模型: CLIP、ViCLIP、GPT-4o
- 结果: GPT-4o 表现优于开源模型,所有模型在对象识别上表现良好,但在对象属性和动作识别上表现较差,无法很好地理解任务序列。

- 1ViSTa Dataset: Do vision-language models understand sequential tasks?Google DeepMind · 2024年
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录
中国30米分辨率土壤可蚀性因子数据集
该数据集为2018年中国30米分辨率土壤可蚀性因子(K)栅格数据,数据是利用中国1979-1994年的全国第二次土壤普查的成果数据进行计算;再利用径流小区观测数据修正计算结果;将修订结果利用反距离权重插值法插值生成栅格数据。特殊地类河湖库塘、冰川及永久积雪、裸岩土地类型K因子值强制赋值为0。如果用户采用的土地利用精度较高,建议重新对以下土地类型的K因子强制赋值为0:河湖库塘、冰川及永久积雪、裸岩。如果有K值为0,但不属于上述类型的,K因子可按如下原则:取邻近相同土地类型图斑的K值,或取与该图斑邻近且不等于0的所有图斑K值的平均值。
国家地球系统科学数据中心 收录
EmoBench-M
EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集,旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论,包含13个评估场景,涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据,为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。
arXiv 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录