lmms-lab/PerceptionTest
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/PerceptionTest
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
dataset_info:
- config_name: mc_question
features:
- name: video_name
dtype: string
- name: question
dtype: string
- name: question_id
dtype: string
- name: options
sequence: string
splits:
- name: test
num_bytes: 2009185
num_examples: 11528
download_size: 161062
dataset_size: 2009185
- config_name: mc_question_val
features:
- name: video_name
dtype: string
- name: question
dtype: string
- name: question_id
dtype: string
- name: options
sequence: string
- name: answer_id
dtype: string
- name: area
dtype: string
- name: reasoning
dtype: string
- name: tag
sequence: string
splits:
- name: validation
num_bytes: 4676415
num_examples: 19140
download_size: 313591
dataset_size: 4676415
configs:
- config_name: mc_question
data_files:
- split: test
path: mc_question/test-*
- config_name: mc_question_val
data_files:
- split: validation
path: mc_question_val/validation-*
---
许可证:MIT许可证
数据集信息:
- 配置名称:mc_question(多项选择题,multiple choice question)
特征字段:
- 字段名:video_name,数据类型:字符串
- 字段名:question,数据类型:字符串
- 字段名:question_id,数据类型:字符串
- 字段名:options,数据类型:字符串序列
数据集划分:
- 划分名称:test(测试集),字节占用量:2009185,样本数量:11528
下载大小:161062
数据集存储大小:2009185
- 配置名称:mc_question_val(多项选择题验证集,multiple choice question validation)
特征字段:
- 字段名:video_name,数据类型:字符串
- 字段名:question,数据类型:字符串
- 字段名:question_id,数据类型:字符串
- 字段名:options,数据类型:字符串序列
- 字段名:answer_id,数据类型:字符串
- 字段名:area,数据类型:字符串
- 字段名:reasoning,数据类型:字符串
- 字段名:tag,数据类型:字符串序列
数据集划分:
- 划分名称:validation(验证集),字节占用量:4676415,样本数量:19140
下载大小:313591
数据集存储大小:4676415
配置项:
- 配置名称:mc_question,数据文件:
- 数据集划分:test(测试集),文件路径:mc_question/test-*
- 配置名称:mc_question_val,数据文件:
- 数据集划分:validation(验证集),文件路径:mc_question_val/validation-*
提供机构:
lmms-lab
原始信息汇总
数据集概述
配置名称:mc_question
- 特征:
video_name: 数据类型 - 字符串question: 数据类型 - 字符串question_id: 数据类型 - 字符串options: 数据类型 - 字符串序列
- 分割:
test:- 字节数: 2009185
- 示例数: 11528
- 下载大小: 161062
- 数据集大小: 2009185
配置名称:mc_question_val
- 特征:
video_name: 数据类型 - 字符串question: 数据类型 - 字符串question_id: 数据类型 - 字符串options: 数据类型 - 字符串序列answer_id: 数据类型 - 字符串area: 数据类型 - 字符串reasoning: 数据类型 - 字符串tag: 数据类型 - 字符串序列
- 分割:
validation:- 字节数: 4676415
- 示例数: 19140
- 下载大小: 313591
- 数据集大小: 4676415
搜集汇总
数据集介绍

构建方式
在视觉语言理解领域,PerceptionTest数据集的构建体现了对多模态认知能力的系统性评估需求。该数据集通过精心设计的流程,从多样化视频源中提取关键片段,并围绕视觉内容生成对应的多项选择题。每个问题均与特定视频片段关联,确保了问题与视觉场景的紧密对应。数据标注过程涉及对视频内容的深度解析,问题设计覆盖了物体识别、动作理解及场景推理等多个认知维度,形成了结构化的测试集合。
使用方法
该数据集适用于评估多模态模型在视频问答任务上的性能。研究人员可加载指定配置,测试集用于模型预测生成,验证集则借助答案标识进行准确性验证。通过解析视频名称、问题文本及选项序列,模型需基于视觉内容推理出正确答案。数据集中提供的领域与推理标签有助于深入分析模型在不同认知任务上的表现差异,为模型改进提供针对性洞察。
背景与挑战
背景概述
在人工智能迈向通用智能的进程中,多模态理解能力是核心瓶颈之一。由lmms-lab团队创建的PerceptionTest数据集,正是为了系统评估模型对视频内容的深层感知与推理能力而构建。该数据集聚焦于视频问答任务,要求模型不仅识别视觉元素,还需理解动态场景中的因果关系、时空逻辑及社会常识。其构建体现了研究社区对模型‘具身智能’和场景理解高阶认知能力的迫切需求,旨在推动多模态人工智能从感知走向认知的范式转变。
当前挑战
PerceptionTest数据集所应对的核心领域挑战,在于解决开放域动态视频场景下的高阶认知问答问题,这要求模型具备跨模态对齐、时序推理和常识知识融合的复杂能力。在构建过程中,挑战主要集中于高质量视频-问题对的标注:需要设计涵盖多样化推理类型(如因果、时序、意图)的问题,确保问题与视频内容的精确对应,并克服动态场景标注中主观性强、标注一致性难以维持的困难。这些挑战共同指向了当前多模态模型在深层次场景理解上的能力边界。
常用场景
经典使用场景
在计算机视觉与多模态智能研究领域,PerceptionTest数据集为评估模型对视频内容的理解能力提供了标准化的测试平台。该数据集通过呈现多样化的视频片段并配以多项选择题,要求模型基于视觉信息进行推理和判断,从而模拟人类对动态场景的感知过程。这一经典使用场景广泛应用于视频问答、动作识别以及场景理解等任务中,为研究者提供了衡量模型性能的基准。
解决学术问题
PerceptionTest数据集有效解决了多模态学习中的关键学术问题,即如何让机器像人类一样整合视觉与语言信息进行复杂推理。它挑战了模型在时空维度上的理解能力,推动了视频基础模型、跨模态对齐以及常识推理等研究方向的发展。该数据集的意义在于为学术界提供了一个可重复、可比较的评估框架,促进了模型在感知智能方面的进步,对推动通用人工智能的实现具有深远影响。
实际应用
在实际应用层面,PerceptionTest数据集所针对的视频理解能力是众多智能系统的核心。基于该数据集训练的模型可以应用于智能监控系统,用于自动分析监控视频中的异常行为或特定事件;在自动驾驶领域,提升车辆对周围动态环境的感知与预测能力;同时在内容审核、智能教育以及人机交互界面中,也能实现更精准的视频内容分析与响应。
数据集最近研究
最新研究方向
在视频理解与多模态人工智能领域,PerceptionTest数据集正推动着对模型感知能力的深度探索。该数据集通过结合视频内容与多项选择题,旨在评估模型对视觉场景中动态事件、物体属性和空间关系的理解。前沿研究聚焦于开发能够整合时序信息与常识推理的架构,以应对视频问答中的复杂挑战。热点事件如多模态大模型的兴起,进一步激发了利用此类数据集进行细粒度评估的需求,其影响在于为构建更智能、更具情境感知能力的AI系统提供了关键基准,意义深远。
以上内容由遇见数据集搜集并总结生成



