lmms-lab/PerceptionTest_Val

Name: lmms-lab/PerceptionTest_Val
Creator: lmms-lab
Published: 2024-06-05 01:31:26
License: 暂无描述

Hugging Face2024-06-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/PerceptionTest_Val

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: config_name: mc_question_val features: - name: video_name dtype: string - name: question dtype: string - name: question_id dtype: string - name: options sequence: string - name: answer_id dtype: string - name: area dtype: string - name: reasoning dtype: string - name: tag sequence: string splits: - name: validation num_bytes: 4676415 num_examples: 19140 download_size: 313591 dataset_size: 4676415 configs: - config_name: mc_question_val data_files: - split: validation path: mc_question_val/validation-* ---

数据集信息：配置名称：mc_question_val 特征字段： - 字段名：video_name，数据类型：字符串 - 字段名：question，数据类型：字符串 - 字段名：question_id，数据类型：字符串 - 字段名：options，数据类型：字符串序列 - 字段名：answer_id，数据类型：字符串 - 字段名：area，数据类型：字符串 - 字段名：reasoning，数据类型：字符串 - 字段名：tag，数据类型：字符串序列数据集划分： - 划分名称：validation（验证集），占用字节数：4676415，样本总数：19140 下载总大小：313591 字节，数据集总存储大小：4676415 字节配置项： - 配置名称：mc_question_val，数据文件列表： - 对应划分：validation（验证集），文件路径：mc_question_val/validation-*

提供机构：

lmms-lab

原始信息汇总

数据集概述

数据集配置名称

配置名称: mc_question_val

数据集特征

视频名称 (video_name): 数据类型 - 字符串
问题 (question): 数据类型 - 字符串
问题ID (question_id): 数据类型 - 字符串
选项 (options): 数据类型 - 字符串序列
答案ID (answer_id): 数据类型 - 字符串
区域 (area): 数据类型 - 字符串
推理 (reasoning): 数据类型 - 字符串
标签 (tag): 数据类型 - 字符串序列

数据集分割

分割名称: 验证
数据量:
- 字节数: 4676415
- 示例数: 19140

数据集大小

下载大小: 313591字节
数据集大小: 4676415字节

数据文件配置

配置名称: mc_question_val
数据文件路径:
- 分割: 验证
- 路径模式: mc_question_val/validation-*

搜集汇总

数据集介绍

构建方式

在视频理解与多模态推理领域，PerceptionTest_Val数据集通过精心设计的流程构建而成。该数据集从多样化的视频源中提取关键片段，并基于视觉内容生成多项选择题。每个问题均附有结构化标注，包括问题ID、选项序列、正确答案ID以及涉及的知识领域与推理类型标签，确保了数据在语义层面的丰富性与逻辑一致性。验证集包含19140个样本，经过严格的质量控制与人工校验，为模型评估提供了可靠基准。

特点

该数据集的核心特点在于其深度整合了视觉与语言模态，专注于高阶认知能力的评估。每个样本不仅关联视频内容，还标注了问题所属的领域（如物理推理、社会互动）及所需的推理类型（如因果分析、时序推断），从而支持细粒度的能力诊断。数据经过平衡设计，覆盖广泛场景与复杂程度，能够有效检验模型在真实世界情境下的感知与推理性能。

使用方法

使用该数据集时，研究者可将其作为多模态模型的验证基准，特别适用于视频问答与推理任务的性能评估。典型流程包括加载视频与对应问题，模型需从给定选项中选出正确答案，系统可通过对比预测答案与标注答案计算准确率。数据以标准格式组织，支持通过HuggingFace数据集库直接加载，便于集成至现有评估框架，推动模型在感知与认知层面的进步。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态理解能力成为关键瓶颈。2024年，由LMMS-Lab团队发布的PerceptionTest_Val数据集应运而生，旨在系统评估模型对视频内容的深层感知与推理能力。该数据集聚焦于视频问答任务，其核心研究问题在于探究模型能否超越表层特征识别，实现对动态视觉场景中事件逻辑、因果关系及社会交互的复杂理解。通过精心设计的多项选择题形式，它推动了多模态大模型在细粒度推理与认知对齐方面的研究，为构建更接近人类感知水平的智能系统提供了重要基准。

当前挑战

PerceptionTest_Val数据集所针对的领域挑战，在于解决视频内容理解中高阶认知任务的评估难题，如时空推理、意图揣测及情感解读，这些任务要求模型具备跨模态融合与抽象思维能力。在构建过程中，挑战同样显著：一是视频标注需确保问题与答案在语义上紧密关联且无歧义，这依赖于严谨的标注协议与专家验证；二是需平衡数据在多种推理类型（如物理推理、社会推理）与场景多样性上的覆盖，以避免评估偏差；三是保持问题难度层次化，从而精准区分不同能力水平的模型性能。

常用场景

经典使用场景

在视频理解与多模态人工智能领域，PerceptionTest_Val数据集为模型评估提供了标准化基准。该数据集通过视频片段与多项选择题的结合，模拟人类对视觉场景的感知与推理过程，经典使用场景集中于视频问答任务的性能验证。研究者利用其丰富的标注信息，包括问题、选项、答案及推理类型，系统性地测试模型在时空推理、物体识别和事件理解等方面的能力，从而推动多模态模型向更精细的感知层次发展。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，主要集中在多模态预训练模型的优化与评估框架的创新。例如，基于其构建的基准测试推动了视频语言模型在细粒度推理任务上的改进，相关研究探索了时空注意力机制、知识增强表示等方法。这些工作不仅提升了模型在PerceptionTest_Val上的性能，还促进了更广泛的视频理解数据集与评估标准的演进，形成了多模态推理领域的方法论链条。

数据集最近研究