lmms-lab/PerceptionTest

Name: lmms-lab/PerceptionTest
Creator: lmms-lab
Published: 2024-06-04 09:10:43
License: 暂无描述

Hugging Face2024-06-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/PerceptionTest

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit dataset_info: - config_name: mc_question features: - name: video_name dtype: string - name: question dtype: string - name: question_id dtype: string - name: options sequence: string splits: - name: test num_bytes: 2009185 num_examples: 11528 download_size: 161062 dataset_size: 2009185 - config_name: mc_question_val features: - name: video_name dtype: string - name: question dtype: string - name: question_id dtype: string - name: options sequence: string - name: answer_id dtype: string - name: area dtype: string - name: reasoning dtype: string - name: tag sequence: string splits: - name: validation num_bytes: 4676415 num_examples: 19140 download_size: 313591 dataset_size: 4676415 configs: - config_name: mc_question data_files: - split: test path: mc_question/test-* - config_name: mc_question_val data_files: - split: validation path: mc_question_val/validation-* ---

许可证：MIT许可证数据集信息： - 配置名称：mc_question（多项选择题，multiple choice question）特征字段： - 字段名：video_name，数据类型：字符串 - 字段名：question，数据类型：字符串 - 字段名：question_id，数据类型：字符串 - 字段名：options，数据类型：字符串序列数据集划分： - 划分名称：test（测试集），字节占用量：2009185，样本数量：11528 下载大小：161062 数据集存储大小：2009185 - 配置名称：mc_question_val（多项选择题验证集，multiple choice question validation）特征字段： - 字段名：video_name，数据类型：字符串 - 字段名：question，数据类型：字符串 - 字段名：question_id，数据类型：字符串 - 字段名：options，数据类型：字符串序列 - 字段名：answer_id，数据类型：字符串 - 字段名：area，数据类型：字符串 - 字段名：reasoning，数据类型：字符串 - 字段名：tag，数据类型：字符串序列数据集划分： - 划分名称：validation（验证集），字节占用量：4676415，样本数量：19140 下载大小：313591 数据集存储大小：4676415 配置项： - 配置名称：mc_question，数据文件： - 数据集划分：test（测试集），文件路径：mc_question/test-* - 配置名称：mc_question_val，数据文件： - 数据集划分：validation（验证集），文件路径：mc_question_val/validation-*

提供机构：

lmms-lab

原始信息汇总

数据集概述

配置名称：mc_question

特征:
- video_name: 数据类型 - 字符串
- question: 数据类型 - 字符串
- question_id: 数据类型 - 字符串
- options: 数据类型 - 字符串序列
分割:
- test:
  - 字节数: 2009185
  - 示例数: 11528
下载大小: 161062
数据集大小: 2009185

配置名称：mc_question_val

特征:
- video_name: 数据类型 - 字符串
- question: 数据类型 - 字符串
- question_id: 数据类型 - 字符串
- options: 数据类型 - 字符串序列
- answer_id: 数据类型 - 字符串
- area: 数据类型 - 字符串
- reasoning: 数据类型 - 字符串
- tag: 数据类型 - 字符串序列
分割:
- validation:
  - 字节数: 4676415
  - 示例数: 19140
下载大小: 313591
数据集大小: 4676415

搜集汇总

数据集介绍

构建方式

在视觉语言理解领域，PerceptionTest数据集的构建体现了对多模态认知能力的系统性评估需求。该数据集通过精心设计的流程，从多样化视频源中提取关键片段，并围绕视觉内容生成对应的多项选择题。每个问题均与特定视频片段关联，确保了问题与视觉场景的紧密对应。数据标注过程涉及对视频内容的深度解析，问题设计覆盖了物体识别、动作理解及场景推理等多个认知维度，形成了结构化的测试集合。

使用方法

该数据集适用于评估多模态模型在视频问答任务上的性能。研究人员可加载指定配置，测试集用于模型预测生成，验证集则借助答案标识进行准确性验证。通过解析视频名称、问题文本及选项序列，模型需基于视觉内容推理出正确答案。数据集中提供的领域与推理标签有助于深入分析模型在不同认知任务上的表现差异，为模型改进提供针对性洞察。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态理解能力是核心瓶颈之一。由lmms-lab团队创建的PerceptionTest数据集，正是为了系统评估模型对视频内容的深层感知与推理能力而构建。该数据集聚焦于视频问答任务，要求模型不仅识别视觉元素，还需理解动态场景中的因果关系、时空逻辑及社会常识。其构建体现了研究社区对模型‘具身智能’和场景理解高阶认知能力的迫切需求，旨在推动多模态人工智能从感知走向认知的范式转变。

当前挑战

PerceptionTest数据集所应对的核心领域挑战，在于解决开放域动态视频场景下的高阶认知问答问题，这要求模型具备跨模态对齐、时序推理和常识知识融合的复杂能力。在构建过程中，挑战主要集中于高质量视频-问题对的标注：需要设计涵盖多样化推理类型（如因果、时序、意图）的问题，确保问题与视频内容的精确对应，并克服动态场景标注中主观性强、标注一致性难以维持的困难。这些挑战共同指向了当前多模态模型在深层次场景理解上的能力边界。

常用场景

经典使用场景

在计算机视觉与多模态智能研究领域，PerceptionTest数据集为评估模型对视频内容的理解能力提供了标准化的测试平台。该数据集通过呈现多样化的视频片段并配以多项选择题，要求模型基于视觉信息进行推理和判断，从而模拟人类对动态场景的感知过程。这一经典使用场景广泛应用于视频问答、动作识别以及场景理解等任务中，为研究者提供了衡量模型性能的基准。

解决学术问题

PerceptionTest数据集有效解决了多模态学习中的关键学术问题，即如何让机器像人类一样整合视觉与语言信息进行复杂推理。它挑战了模型在时空维度上的理解能力，推动了视频基础模型、跨模态对齐以及常识推理等研究方向的发展。该数据集的意义在于为学术界提供了一个可重复、可比较的评估框架，促进了模型在感知智能方面的进步，对推动通用人工智能的实现具有深远影响。

实际应用

在实际应用层面，PerceptionTest数据集所针对的视频理解能力是众多智能系统的核心。基于该数据集训练的模型可以应用于智能监控系统，用于自动分析监控视频中的异常行为或特定事件；在自动驾驶领域，提升车辆对周围动态环境的感知与预测能力；同时在内容审核、智能教育以及人机交互界面中，也能实现更精准的视频内容分析与响应。

数据集最近研究