合成视频问答数据集

Name: 合成视频问答数据集
Creator: 南洋理工大学,国立新加坡大学,南开大学,广东省人工智能与数字经济实验室（深圳）
Published: 2025-03-21 19:50:06
License: 暂无描述

arXiv2025-03-21 更新2025-03-25 收录

下载链接：

http://arxiv.org/abs/2503.17069v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个合成视频问答数据集，用于训练个性化视频理解模型PVChat。数据集通过自动化数据增强管道生成，包括从自然视频中提取的身份保持正面样本和从现有视频语料库中检索的困难负面样本。数据集涵盖了6种个体场景，包含304个原始视频和2304个扩展生成的视频，以及超过30000个针对存在性验证、外观描述、位置识别和动作识别四种类型的问答对。

This study develops a synthetic video question answering (VideoQA) dataset for training the personalized video understanding model PVChat. The dataset is generated via an automated data augmentation pipeline, including identity-preserving positive samples extracted from natural videos and hard negative samples retrieved from existing video corpora. The dataset covers 6 individual scenarios, contains 304 original videos and 2304 extended generated videos, as well as over 30,000 question-answer pairs across four types: existence verification, appearance description, location recognition and action recognition.

提供机构：

南洋理工大学,国立新加坡大学,南开大学,广东省人工智能与数字经济实验室（深圳）

创建时间：

2025-03-21

搜集汇总

数据集介绍

构建方式

合成视频问答数据集的构建采用了一种创新的自动化增强流程，结合了身份保持的正样本生成与硬负样本检索技术。首先，通过DeepFaceLab和FaceNet从原始视频中提取高质量面部特征，并利用ConsisID和PhotoMaker生成多样化场景下的身份一致视频。同时，从Laion-Face-5B和CelebV-HQ数据集中检索视觉相似的硬负样本，以增强模型的区分能力。最后，利用InternVideo2和ChatGPT-4o生成涵盖存在性、外观、动作和位置四类问题的问答对，确保数据的多样性和语言的自然性。

特点

该数据集具有高度的多样性和身份一致性，包含304个原始视频和2,304个扩展生成的视频，以及超过30,000个问答对。数据覆盖了医疗场景、电视剧、动漫和真实世界镜头等多种情境，支持单人和多人交互的复杂场景。通过身份保持的正样本和硬负样本的结合，数据集不仅增强了模型的个性化理解能力，还提高了其在复杂环境中的鲁棒性。此外，问答对的四种类型设计全面覆盖了视频理解的各个方面，为模型提供了丰富的训练素材。

使用方法

数据集的使用分为两个阶段：首先进行图像预训练，模型学习静态身份属性；随后进行视频微调，专注于动态动作识别和多人交互能力。在训练过程中，采用ReLU Routing Mixture-of-Heads注意力机制和两种新颖的优化目标（平滑接近正则化和头部激活增强）来提升模型的个性化特征提取能力。评估时，模型在单参考视频的条件下进行个性化问答，覆盖存在性、外观、动作和位置四类问题，通过准确性、BLEU分数、BERTScore等多项指标综合评估模型性能。

背景与挑战

背景概述

合成视频问答数据集（PVChat）由南洋理工大学、新加坡国立大学、南开大学以及广东省人工智能与数字经济实验室的研究团队于2025年提出，旨在解决视频大语言模型（ViLLMs）在身份感知理解方面的局限性。该数据集通过一次性学习框架，支持从单个参考视频中进行个性化视频问答，广泛应用于智能医疗和智能家居环境。数据集包含6种个体场景、304个原始视频和2,304个扩展生成的视频，以及超过30,000个问答对，显著推动了视频个性化理解领域的研究。

当前挑战

该数据集面临的挑战主要包括两个方面：1) 领域问题挑战：现有视频大语言模型在识别特定个体及其动态行为（如“Wilson正在接受化疗”或“Tom与Sarah讨论”）方面表现不佳，限制了其在个性化场景中的应用；2) 构建过程挑战：数据合成过程中需保持身份一致性，同时生成多样化的正样本和具有挑战性的负样本，以确保模型的鲁棒性和准确性。此外，问答对的自动生成需兼顾语言自然性和个性化信息的精确表达。

常用场景

经典使用场景

合成视频问答数据集在个性化视频理解领域具有广泛应用，尤其在智能医疗和智能家居环境中。该数据集通过身份感知问答任务，支持模型从单个参考视频中学习特定个体的特征，从而实现对个性化视频内容的理解。例如，模型可以识别视频中的特定人物及其行为，如“Wilson正在接受化疗”或“Tom正在与Sarah讨论”。这种能力使得模型能够在医疗监控、家庭安防等场景中发挥重要作用。

衍生相关工作

该数据集衍生了多项经典工作，特别是在个性化视频大语言模型（ViLLM）领域。例如，PVChat框架通过混合头增强机制和渐进式学习策略，显著提升了模型的个性化理解能力。此外，相关研究还探索了身份保持的视频生成技术（如ConsisID和PhotoMaker）以及硬负样本检索方法（如Laion-Face-5B和CelebV-HQ），进一步推动了视频个性化理解技术的发展。这些工作为后续研究提供了重要的技术基础和数据集支持。

数据集最近研究