Temporal-VIP
收藏arXiv2026-05-27 更新2026-05-29 收录
下载链接:
https://huggingface.co/datasets/yml2002/Temporal-VIP
下载链接
链接失效反馈官方服务:
资源简介:
Temporal-VIP是由武汉科技大学和武汉大学等机构联合创建的大规模视频重要人物识别基准数据集,旨在解决动态视频场景中社会重要性识别的时序重要性转移问题。该数据集包含9,249个精心挑选的视频片段,涵盖演讲、会议、访谈等11个真实世界社交类别,每个片段都提供了帧级重要人物标注、个体跟踪标识和边界框,并配有解释社会重要性判断的文本依据。数据通过多模态标注流程构建,结合了视觉分析和社会语义理解,主要应用于智能监控、自动视频编辑和社会感知人机交互等领域,为可解释的视频社会场景理解研究提供重要支撑。
Temporal-VIP is a large-scale video important person recognition benchmark dataset jointly developed by Wuhan University of Science and Technology, Wuhan University and other institutions, aiming to address the temporal importance shift problem in social importance recognition within dynamic video scenarios. This dataset contains 9,249 carefully curated video clips, covering 11 real-world social categories including speeches, conferences, interviews and more. Each clip is equipped with frame-level important person annotations, individual tracking IDs, bounding boxes, as well as textual justifications for the social importance judgments. The dataset is constructed via a multimodal annotation workflow that combines visual analysis and social semantic understanding. It is primarily applied in fields such as intelligent surveillance, automatic video editing and social-aware human-computer interaction, providing critical support for research on explainable video social scene understanding.
提供机构:
武汉科技大学·计算机科学与技术学院; 武汉大学·计算机学院; 南洋理工大学·计算与数据科学学院
创建时间:
2026-05-27
原始信息汇总
数据集名称
Temporal-VIP:用于视频重要人物检测任务的多模态数据集。
数据集概述
本数据集经过严格清理(移除了处理失败的视频),包含结构化的视觉特征(npz文件)和大语言模型生成的语义描述(json文件),适用于多模态建模、时空分析和重要人物识别等研究方向。
数据集统计
- 训练集:5,549 个视频
- 验证集:1,850 个视频
- 测试集:1,850 个视频
- 总计:9,249 个视频
数据组成与格式
1. 视觉特征数据(npz文件)
每个视频对应一个.npz文件,包含以下字段:
| 字段名 | 形状示例 | 类型 | 说明 |
|---|---|---|---|
frames |
(120, 192, 336, 3) | uint8 | 采样后的视频帧序列,RGB格式 |
bboxes |
(120, 20, 4) | float32 | 每帧每人的边界框[x1, y1, x2, y2],已缩放到目标分辨率 |
person_ids |
(120, 20) | int32 | 每帧每人的唯一ID |
frame_mask |
(120,) | bool | 帧有效性掩码,True为有效帧 |
person_mask |
(120, 20) | bool | 人物存在掩码,True为该帧该索引有人物 |
target_index |
() | int | 重要人物的索引位置(如无则为-1) |
original_ids |
(20,) | int32 | 索引到原始人物ID的映射 |
video_id |
() | string | 视频唯一标识符 |
scene_category |
() | string | 场景类别 |
2. 语义描述数据(json文件)
每个视频对应一个.json文件,包含以下字段:
| 字段名 | 类型 | 说明 |
|---|---|---|
context_description |
string | 视频整体场景描述,简要介绍场景、氛围和主要活动 |
person_descriptions |
list | 人物列表,每个元素为一个字典,包含person_id和feature字段 |
vip_description |
dict | 重要人物描述,包含person_id和explanation |
video_name |
string | 视频文件名(与npz文件名一致) |
person_descriptions结构:
person_id:字符串,人物ID(与npz中的original_ids对应)feature:字典,包含以下子字段:location:人物在画面中的位置描述action:人物当前的动作或行为expression:人物表情或情绪interaction:与其他人物的互动关系
vip_description结构:
person_id:字符串,重要人物IDexplanation:字符串,说明为何该人物被认为是重要人物
场景类别映射(01-11)
共11个场景,顺序与目录一致:
| 场景ID | 场景名称 |
|---|---|
| 01 | Indoor Daily(室内日常) |
| 02 | Outdoor Public(户外公共) |
| 03 | Educational Teaching(教育教学) |
| 04 | Daily Office(日常办公) |
| 05 | Social Gathering(社交聚会) |
| 06 | Sports(体育运动) |
| 07 | Art and Performance(艺术与表演) |
| 08 | Medical and Nursing(医疗护理) |
| 09 | Formal Meeting(正式会议) |
| 10 | Emergency or Special Event(紧急或特殊事件) |
| 11 | Unknown or Unclassifiable(未知或不可分类) |
数据索引与掩码机制
- 人物索引一致性:所有帧中同一索引位置对应同一个人物ID,便于时序建模。
- 掩码使用:
frame_mask:筛选有效帧,避免无效帧干扰训练。person_mask:筛选有效人物,支持稀疏场景下的鲁棒建模。
数据预处理与清理流程
- 帧采样与补齐:每个视频均匀采样120帧,不足则补齐。
- 边界框与ID处理:统一分配人物索引,缩放边界框,保证跨帧一致性。
- 重要人物标注:通过人工或自动方式标注重要人物索引。
- 语义描述生成:利用大模型自动生成每个视频的结构化语义描述。
- 异常数据剔除:移除
target_index为-1或其他异常样本,保证数据质量。
目录结构
preprocessed_fixed/train|val|test/:视觉特征npz文件llm_marked_videos_description/train|val|test/:语义描述json文件
使用建议
- 训练/评估时,建议严格根据
frame_mask和person_mask筛选有效数据。 - 多模态任务可联合使用npz和json文件,进行视觉-语义对齐、事件检测、重要人物识别等研究。
- 若需还原原始人物ID,可通过
original_ids字段实现。
版本与更新
- 当前数据集划分:训练集5,549,验证集1,850,测试集1,850,总计9,249个视频。
- 最后更新:2026年3月
搜集汇总
数据集介绍

构建方式
Temporal-VIP数据集针对视频重要人物识别任务而构建,旨在弥补现有静态图像数据集在捕捉时序社会动态方面的不足。该数据集从232个涵盖电影、电视节目、纪录片及YouTube视频的高分辨率片段中,利用YOLOv8l姿态检测模型与ByteTrack多目标追踪算法,自动生成初始候选视频片段。随后,经过基于检测完整性、视觉清晰度、社交互动性、时序动态性及遮挡程度五条准则的严格人工筛选,最终保留9,249个高质量视频切片,覆盖演讲、会议、访谈等11类真实社交场景。每个片段均提供帧级重要人物标注、个体跟踪标识与边界框,并由五名标注员依据层级化的可观察行为线索(如对话主导性、显著动作)独立完成重要性判断与基于所选线索的文本化理由生成,通过Fleiss Kappa系数(0.89)确保标注一致性,最终经多模态大语言模型Qwen2.5-VL辅助生成并人工校验自然语言描述。
特点
Temporal-VIP数据集的核心特点在于其首次将重要人物识别从静态图像拓展至动态视频领域,并系统性地纳入了时序重要性转移(TIS)这一关键现象。与基于即时视觉显著性(如居中位置、大面积)的静态数据集不同,该数据集通过精心设计的片段时长(3至10秒)与多人交互场景(以3至5人小群体为主),精准捕捉社会焦点在时间维度上的非线性演化。其独特的双维度标注体系,即同时提供帧级重要性标签与细粒度的空间(中心性、面积、清晰度)及时序(动作、唇动)行为线索的排名理由,为模型学习从瞬时显著性到长期语义主导性的跨越提供了坚实基础。此外,数据集包含经过严格验证的自然语言理由文本,这不仅支持了可解释性研究,也使其成为连接低层视觉感知与高层社会认知推理的理想测试平台。
使用方法
Temporal-VIP数据集的使用方法设计灵活,旨在支持视频重要人物识别任务的训练与评测。数据以NPZ和JSON双格式提供,NPZ文件包含标准化的视觉阵列与跟踪元数据,JSON文件则存储层级化的语义标注与文本理由。用户可基于其提出的VIP-Net框架进行模型开发,该框架通过Social Cue Encoder提取个体时空多模态线索,利用Temporal Importance Rectifier进行层次化特征融合与跨模态对齐以缓解TIS,最终通过VIP Inference模块输出重要性排名并生成基于特征引导的文本理由。在与包括静态图像基线(POINT)、视频特征模型(MGFN、Samba)、多目标追踪器(ByteTrack)及多模态大语言模型(X-CLIP、BLIP-2、TinyLLaVA)在内的多种基线对比中,数据集提供了统一的Rank-1/2/3准确度评估协议,并采用SBERT余弦相似度衡量理由生成质量,确保可复现且公平的基准测试。
背景与挑战
背景概述
Temporal-VIP数据集由武汉科技大学和武汉大学的研究团队于2026年创建,旨在将重要人物识别任务从静态图像拓展至动态视频领域。该数据集聚焦于视频中关键人物的自动识别,并生成相应的文本解释,以解决传统方法依赖瞬时视觉显著性而忽略时间上下文信息的问题。Temporal-VIP包含9,249个视频片段,涵盖11种社会场景,并提供了多模态标注和文本解释。其提出的核心研究问题是:如何在动态视频中识别随时间变化的重要人物,即时间重要性漂移问题。该数据集填补了视频社会理解基准的空白,推动了可解释人工智能在视频分析中的应用。
当前挑战
Temporal-VIP面临的挑战主要包括:1) 时间重要性漂移问题,即视频中人物的社会重要性随时间动态变化,传统基于静态图像的方法无法捕捉这种演变。2) 缺乏具备解释性文本的视频基准,现有数据集仅提供空间坐标而无详细描述。3) 在构建过程中,需要设计严格的标注协议以量化主观的社会重要性,包括建立多维度可观察的行为线索层次。4) 采集和筛选高质量视频片段的挑战,从232个视频源中经过五轮严格筛选最终得到9,249个高质量片段。5) 实现跨模态特征的有效融合,将空间线索与时间行为模式对齐,以准确建模社会动态和语义主导权的转移。
常用场景
经典使用场景
在视频理解与计算机视觉领域,Temporal-VIP数据集的核心使用场景聚焦于动态多人物场景中关键人物的自动识别。该数据集突破了传统静态图像中基于瞬时视觉显著性(如居中性、边界框面积)进行人物重要性判断的局限,提供了涵盖演讲、会议、访谈等11类真实社交场景的9,249段视频片段。通过帧级重要性标注、个体追踪标识及文本解释性依据,研究者得以系统探究人物社会重要性在时间维度上的动态迁移现象,为从感知到认知的视频社交推理研究奠定了坚实的基准平台。
衍生相关工作
Temporal-VIP数据集的发布催生了一系列具有影响力的衍生工作。一方面,VIP-Net框架中的社交线索编码器与时序重要性校正器为后续的多模态社交特征融合模型提供了可复用的设计范式。另一方面,其提供的文本解释依据推动了特征引导的大语言模型精炼模块的发展,使模型在生成自然语言解释时能严格锚定于提取的视觉证据,有效抑制了社会关系幻觉。此外,该数据集所揭示的时序重要性漂移现象还启发了研究者重新审视现有视频理解模型在高层社交推理上的根本局限,催生了面向长程社交交互的关系图网络与因果推断方法等前沿探索。
数据集最近研究
最新研究方向
Temporal-VIP数据集聚焦于视频重要人物识别的动态社会语义理解,前沿研究方向围绕解决“时间重要性漂移”问题展开,通过多模态时空线索挖掘与层级化特征融合,突破静态图像依赖的局限。该数据集与智能视频编辑、体育直播分析及人机交互等热点事件紧密关联,其提出的VIP-Net框架融合社交线索编码器与时间重要性矫正器,在视频中实现67.3%的识别准确率,显著超越现有模型,推动了可解释性人工智能在复杂社会层级推理中的发展,为视频理解领域从感知层迈向认知层提供了关键支撑。
相关研究论文
- 1Mining Multi-Modality Spatio-Temporal Cues for Video Important Person Identification武汉科技大学·计算机科学与技术学院; 武汉大学·计算机学院; 南洋理工大学·计算与数据科学学院 · 2026年
以上内容由遇见数据集搜集并总结生成



