Salesforce/ST-Evidence-Instruct
收藏Hugging Face2026-05-06 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/Salesforce/ST-Evidence-Instruct
下载链接
链接失效反馈官方服务:
资源简介:
ST-Evidence-Instruct数据集是一个基于时空证据的视频问答数据集,用于训练。数据集包含两部分:gen_mask和gen_qa/vicas。gen_mask部分包含约20k样本,源自CLEVRER视频,具有6fps的视频帧、空间掩码、时间证据注释和问答对。gen_qa/vicas部分包含141k样本,源自ViCaS视频,具有多选题、时间片段注释、空间掩码引用和答案候选。数据集结构清晰,提供了详细的文件结构和数据格式示例。该数据集仅用于研究目的,支持学术论文《Evidence-Backed Video Question Answering》。
The ST-Evidence-Instruct dataset is a spatio-temporal evidence-based video question answering dataset designed for model training. It consists of two subsets: gen_mask and gen_qa/vicas. The gen_mask subset includes approximately 20k samples sourced from CLEVRER videos, with each sample containing 6fps video frames, spatial masks, temporal evidence annotations, and question-answer pairs. The gen_qa/vicas subset contains 141k samples derived from ViCaS videos, featuring multiple-choice questions, temporal segment annotations, spatial mask references, and answer candidates. The dataset has a well-defined structure, with detailed file structure descriptions and data format examples provided. This dataset is for research purposes only and supports the academic paper "Evidence-Backed Video Question Answering".
提供机构:
Salesforce
搜集汇总
数据集介绍

构建方式
ST-Evidence-Instruct数据集的构建融合了多种前沿技术,旨在为时空证据驱动的视频问答任务提供高质量训练数据。其构建过程首先基于CLEVRER与ViCaS两个视频基准,分别采用GroundingDINO模型生成精细的空间掩码,以及借助Gemini与Qwen大语言模型自动生成问答对。gen_mask子集包含约2万条样本,提供6fps的视频帧、基于边界框的空间掩码及时序证据标注;gen_qa子集则包含14.1万条多选题样本,每项均附带时空证据、掩码引用与候选答案。两部分共同构成一个兼具空间定位与时间推理能力的结构化数据体系。
特点
该数据集的核心特色在于其时空双重证据的精细标注与多模态融合。每一条问答样本均包含明确的时间段与空间掩码引用,使模型不仅能回答问题,更可定位证据所在时刻与物体区域。数据集采纳双子结构——gen_mask侧重于掩码与帧的精确对应,而gen_qa则强调大规模问答生成与多样性,两者互为补充。此外,数据来源覆盖模拟物理场景与自然视频,增强了泛化能力。141k样本规模与全面的候选答案格式,使得该数据集特别适用于训练可解释的视频理解模型。
使用方法
使用ST-Evidence-Instruct时,首先通过Hugging Face的snapshot_download方法下载完整仓库,随后需手动解压gen_mask文件夹中的masks.tar.gz与video_frames_6fps.tar.gz压缩包,释放46GB的视频帧与掩码数据。数据加载可通过Pandas读取st_evidence.csv与st_evidence_vicas.csv文件,并利用Pickle加载附加元数据。gen_qa子集中每行包含question、answer、candidates、mask_evidence及temporal_evidence等字段,便于直接用于训练或评估时空问答模型。所有数据均采用标准CSV格式,兼容主流深度学习框架。
背景与挑战
背景概述
ST-Evidence-Instruct数据集由Salesforce研究院于2026年创建,旨在解决视频理解中时空证据推理的核心挑战。该数据集聚焦于“基于证据的视频问答”这一前沿研究问题,要求模型不仅回答关于视频内容的问题,还需提供支撑答案的时空证据(如空间掩码与时间片段)。通过整合CLEVRER与ViCaS视频数据,并借助Gemini、Qwen等模型生成高质量问答对,数据集为时空推理与多模态学习领域提供了标准化基准,对推动视频语言模型的可解释性发展具有重要意义。
当前挑战
该数据集应对的领域挑战在于:视频问答任务要求模型同时捕捉空间对象关系与时间动态变化,而现有模型往往缺乏将回答与具体时空证据关联的能力,导致推理过程不透明。构建过程中面临的挑战包括:如何从原始视频中精准分割对象并生成高质量空间掩码(依赖GroundingDINO与SAM 3),以及如何自动生成包含时空标注的大规模问答对(需平衡合成数据的多样性与准确性)。此外,压缩文件解压与46GB帧数据的存储管理对实际使用构成工程障碍。
常用场景
经典使用场景
ST-Evidence-Instruct数据集在视频理解领域中被广泛用作时空推理与证据回溯的基准测试平台。它通过整合CLEVRER和ViCaS视频源,提供了丰富的时空掩码注释与时间片段标注,使得模型能够在复杂动态场景中定位与事件相关的视觉证据。研究者常利用该数据集训练视频问答系统,要求模型不仅给出答案,还需提供对应的时空证据区域,从而推动可解释性视频理解的发展。例如,在因果推理任务中,模型需依据物体交互的时空轨迹回答问题,这一过程高度依赖该数据集提供的高精度掩码与时间戳对齐信息。
衍生相关工作
基于ST-Evidence-Instruct,学术界衍生出一系列聚焦于可解释视频推理的创新工作。例如,有研究借鉴其时空证据框架,提出了基于注意力图与边界框的视频证据提取模型,显著提升了证据定位的精度;另有工作在该数据集基础上引入反驳逻辑,构建了对抗性证据生成机制,以测试模型在复杂场景下的推理鲁棒性。此外,该数据集还启发了多模态证据融合方向,研究者将视觉掩码与语言线索进行跨模态对齐,进一步拓展了视频问答中证据链建模的边界。
数据集最近研究
最新研究方向
ST-Evidence-Instruct数据集聚焦于视频问答领域的前沿方向——基于时空证据的推理能力构建。近期研究热点在于将视觉语言模型与时空定位技术深度融合,突破传统模型仅依赖静态图像或全局视频理解的局限。该数据集通过整合GroundingDINO生成的空间掩码与时间片段标注,为模型提供了细粒度的视频证据链学习基础,能有效支撑动作因果推理、事件时序理解等复杂任务。其利用Gemini生成大规模问答对(141k样本)的范式,不仅推动了弱监督与零样本视频理解的研究,也为多模态大模型在视频场景下的可解释性评估提供了关键基准,对智能监控、自动驾驶等对时空信息敏感的应用领域具有深远意义。
以上内容由遇见数据集搜集并总结生成



