ForeSeaQA

Name: ForeSeaQA
Creator: Qualcomm
Published: 2026-04-24 20:16:25
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/qualcomm/ForeSeaQA

下载链接

链接失效反馈

官方服务：

资源简介：

Qualcomm ForeSea数据集是一个用于视频问答（VideoQA）的基准数据集，特别关注视频监控/法医搜索领域中的时间定位任务。该数据集旨在评估VideoLLMs和Video-RAG系统在现实分析师工作流程中的表现，包括结合参考图像和文本问题的多模态查询。数据集主要评估答案正确性、时间定位以及多模态推理能力，包含六种子任务：搜索（SE）、活动（AC）、事件（EV）、时间（TM）、计数（CT）和异常（AN）。数据集采用半自动化数据引擎生成，并通过人工验证确保问答有效性、答案正确性和时间定位准确性。视频源来自UCF-Crime数据集（128小时/1,900个视频）。数据集包含注释文件和用于生成/查询多模态问题参考图像的映射元数据，仅限研究使用。

The Qualcomm ForeSea dataset is a benchmark dataset for Video Question Answering (VideoQA), with a particular focus on temporal localization tasks in the domain of video surveillance/forensic search. This dataset aims to evaluate the performance of VideoLLMs and Video-RAG systems in real-world analyst workflows, including multimodal queries that combine reference images (e.g., snapshots of persons of interest) and textual questions. The dataset primarily assesses three aspects: answer correctness (multiple-choice accuracy), temporal localization (predicting time intervals containing sufficient evidence), and multimodal reasoning capabilities with image+text queries. ForeSeaQA includes six subtasks: Search (SE), Activity (AC), Event (EV), Time (TM), Count (CT), and Anomaly (AN). The dataset is generated using a semi-automated data engine and is human-verified to ensure QA validity, answer correctness, and temporal localization accuracy. Video sources are from the UCF-Crime dataset (128 hours/1,900 videos). The dataset includes annotation files (questions, multiple-choice options, correct answers, timestamps, task types, etc.) and mapping metadata for generating/querying multimodal question reference images. The dataset is for research use only and requires citation of the relevant paper when used.

提供机构：

Qualcomm

创建时间：

2026-04-24

原始信息汇总

ForeSeaQA 数据集概述

基本信息

数据集名称：ForeSeaQA
发布机构：Qualcomm AI Research
许可证：仅限研究用途（Research Use）
数据集地址：https://huggingface.co/datasets/qualcomm/ForeSeaQA

数据集描述

ForeSeaQA 是一个面向视频监控/法医搜索领域的视频问答（VideoQA） 基准数据集，专门用于评估视频大语言模型（VideoLLMs）和视频检索增强生成（Video-RAG）系统在真实分析工作流中的表现。该数据集支持多模态查询，即结合参考图像（如人物快照）与文本问题进行推理。

评估维度

ForeSeaQA 联合评估以下三方面能力：

答案准确性（多项选择正确率）
时间定位能力（预测包含充分证据的时间区间）
多模态查询推理（图像+文本组合查询）

查询类型

纯文本查询：仅包含问题文本
多模态查询：Q = (Q_I, Q_T)，其中 Q_I 为参考图像，Q_T 为引用该图像的文本问题（例如：“照片中的人何时进入大楼？”）

任务类别

数据集包含六个子任务：

搜索（Search, SE）
活动（Activity, AC）
事件（Event, EV）
时间（Temporal, TM）
计数（Counting, CT）
异常（Anomaly, AN）

数据构建流程

ForeSeaQA 采用半自动数据引擎生成：

从密集描述中提取人物实体
对实体进行视觉定位，生成查询图像裁剪
生成带有时间戳范围的问答对
人工验证问答有效性、答案正确性和时间定位准确性

视频来源

数据集使用的视频来自 UCF-Crime 数据集，该数据集是一个大规模监控视频数据集，包含约 128小时/1,900个视频，最初用于异常检测研究。

UCF-Crime 数据集链接：https://www.crcv.ucf.edu/research/real-world-anomaly-detection-in-surveillance-videos/

仓库内容

AI_Forensic-QA.json：ForeSeaQA 注释文件（问题、多项选择选项、正确答案、时间戳、任务类型等）
ForeSea_QA_image_mapping.json：用于生成/查询多模态问题参考图像的映射元数据
crop_image.py：利用 ForeSea_QA_image_mapping.json 从 UCF-Crime 视频中裁剪查询图像的工具脚本

使用方式

用户需从官方来源下载 UCF-Crime 视频，然后运行 crop_image.py 脚本生成查询图像。

引用信息

若使用该数据集进行研究，请引用以下论文：

@misc{park2026foreseaaiforensicsearch, title={ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance}, author={Hyojin Park and Yi Li and Janghoon Cho and Sungha Choi and Jungsoo Lee and Taotao Jing and Shuai Zhang and Munawar Hayat and Dashan Gao and Ning Bi and Fatih Porikli}, year={2026}, eprint={2603.22872}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.22872}, }

搜集汇总

数据集介绍

构建方式

ForeSeaQA数据集的构建采用半自动化数据引擎，以UCF-Crime监控视频数据集为原始素材。首先，从密集视频描述中提取人物实体，并对实体进行视觉定位以生成查询图像裁剪。随后，基于这些实体与时序信息自动生成问答对，并标注相应的时间戳区间。所有生成的问答对均经过人工校验，确保问题合理性、答案准确性及时序标注的精确性，从而构建出高质量的视频问答基准。

特点

ForeSeaQA专注于监控与法医检索领域的视频问答与时序定位任务，具备三大核心特色：其一是支持多模态查询，允许用户同时输入参考图像与文本问题，模拟真实法医检索场景；其二是包含六大子任务，涵盖搜索、活动、事件、时序、计数及异常检测，全面评估模型的多维推理能力；其三是同步评测答案正确性与时间区间预测的准确性，为视频理解与检索系统提供细粒度评价标准。

使用方法

使用ForeSeaQA数据集时，需先从UCF-Crime官方来源下载原始监控视频，随后利用仓库提供的crop_image.py脚本及ForeSea_QA_image_mapping.json映射文件，裁剪出多模态查询所需的参考图像。数据集以AI_Forensic-QA.json文件提供完整的问答标注，包括问题、多选选项、正确答案及时间戳等信息。研究人员可将其用于训练或评估视频大语言模型及视频检索增强生成系统在多模态查询与时序理解上的综合性能。

背景与挑战

背景概述

ForeSeaQA是由高通人工智能研究团队于2026年推出的视频问答基准数据集，旨在解决监控视频与取证搜索领域中的多模态查询与时序定位问题。该数据集由Hyojin Park、Yi Li等研究者基于UCF-Crime视频库构建，通过半自动化数据引擎提取人物实体、生成查询图像与问答对，并辅以人工验证确保质量。ForeSeaQA涵盖搜索、活动、事件、时序、计数与异常六类子任务，核心创新在于联合评估答案正确性、时间区间预测能力以及图文混合查询的推理效能，为视频大语言模型与视频检索增强生成系统提供了贴近真实分析师工作流的评测标准，显著推动了监控视频智能分析领域的发展。

当前挑战

ForeSeaQA所解决的领域核心挑战在于现有视频问答基准多聚焦于开放域场景，缺乏针对监控取证这一特定领域的多模态与时序联合推理能力；真实分析师需根据嫌疑人图像与文本描述快速定位视频中的关键时段，传统方法难以同时满足高精度答案匹配与时间区间预测。在构建过程中，团队面临如何从UCF-Crime密集字幕中准确提取人物实体并与查询图像对齐的挑战，同时需确保生成的问答对在语义合理性、答案正确性及时间戳标注上均达到人工验证标准，这要求在自动化处理与人工审核之间取得精细平衡，以构建可靠且具有泛化能力的基准数据集。

常用场景

经典使用场景

ForeSeaQA数据集专注于视频问答与时间定位的联合评估，尤其适用于安防监控领域中的智能视频分析任务。典型使用场景包括：给定一段监控视频，系统需根据文本问题或结合参考图像的多模态查询，精准定位事件发生的时间区间并给出正确答案。该数据集包含搜索、活动、事件、时间、计数和异常六大子任务，全面覆盖视频监控中常见的分析需求。研究者可借此评估视频大语言模型在多模态理解、时序推理与细粒度事件检测方面的综合能力，推动视频理解技术向更贴近实战应用的场景演进。

解决学术问题

ForeSeaQA解决了现有视频问答数据集在多模态查询与时间定位联合建模方面的空白。传统视频问答任务多局限于单一文本查询且忽略时间信息，而实际安防分析需要将嫌疑人的图像快照与文本问题结合，精确锁定事件发生时段。该数据集通过引入参考图像与文本的双模态查询，以及严格的时间区间标注，使得研究者能够系统性地探讨视频模型在复杂时序推理、跨模态对齐与异常检测等学术问题上的表现。其半自动化的数据生成流程与人工校验机制，也为高质量视频问答数据集的构建提供了可复现的范式。

衍生相关工作

ForeSeaQA的发布催生了多项关联研究工作。首先，它推动了视频大语言模型在时间定位任务上的基准评测，促使研究者设计更有效的时序特征提取与跨模态对齐模块。其次，其半自动数据引擎方法被后续工作借鉴，用于构建其他领域（如自动驾驶、工业质检）的多模态视频问答数据集。再者，该数据集强调的“图像+文本”联合查询形式，激发了视频检索与问答的融合研究，衍生出诸如视频场景图生成、事件时序推理等新任务。最后，基于UCF-Crime视频源，ForeSeaQA与异常检测领域的经典工作形成互补，拓宽了监控视频中罕见事件学习的评估维度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集