ST-Evidence-Instruct

Name: ST-Evidence-Instruct
Creator: Salesforce
Published: 2026-05-07 02:57:05
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/Salesforce/ST-Evidence-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

ST-Evidence-Instruct 是一个基于时空证据的视频问答数据集，用于训练相关模型。该数据集由 Gemini 生成，并使用了 Meta Platforms, Inc. 的 Segment Anything Model 3 (SAM 3)。数据集包含两部分：gen_mask 和 gen_qa/vicas。gen_mask 部分包含约 20k 样本，源自 CLEVRER 视频，通过 GroundingDINO 生成掩码，包括 6fps 的视频帧、空间掩码（基于边界框，由 GroundingDINO 优化）、时间证据注释和问答对。gen_qa/vicas 部分包含 141k 样本，源自 ViCaS 视频，通过 Gemini 和 Qwen 生成问答，包括多选题、时间段注释、空间掩码引用和答案候选。数据集文件结构清晰，提供了详细的元数据和注释文件。该数据集适用于视频问答任务的研究和开发，遵循 CC-BY-NC 4.0 许可。

提供机构：

Salesforce

创建时间：

2026-05-02

搜集汇总

数据集介绍

构建方式

ST-Evidence-Instruct数据集依托于CLEVRER与ViCaS两大视频源，通过多阶段智能生成策略构建而成。其gen_mask子集采用GroundingDINO模型对CLEVRER视频中的物体进行空间掩码生成，并结合6帧/秒的视频帧采样，形成约2万个包含空间与时间证据的问答样本。gen_qa/vicas子集则利用Gemini与Qwen大语言模型，从ViCaS视频中自动生成多达14.1万条多项选择题，每道题均附带时间区间与空间掩码引用作为证据支撑。数据集的构建流程融合了目标检测、视频帧提取与大模型问答生成技术，展现了从原始视频到结构化指令数据的自动化流水线。

特点

该数据集的核心特色在于其融合了空间与时间双重维度的证据标注机制。每一条问答数据不仅包含问题与标准答案，还精确记录了答案所依赖的时空证据——即通过物体掩码表征的空间位置信息，以及以起止时间点定义的时间区间。这种双轨证据结构为视频问答模型提供了可追溯的推理依据，使模型训练不再局限于文本匹配，而是迈向可解释的时空推理。此外，数据集同时提供小规模的掩码推演样本与大规模的多项选择数据，兼顾了精细与泛化的训练需求。

使用方法

使用者可通过HuggingFace的snapshot_download接口一键获取完整数据集，随后需解压约46GB的视频帧压缩包与掩码文件以释放数据资产。数据加载流程高度模块化，gen_mask子集提供CSV与Pickle两种格式的元数据，分别存储问答对与补充信息，视频帧按保真度采样存储；gen_qa/vicas子集则以CSV文件整合了14万条样本，每条记录包含唯一标识、视频路径、问题文本、候选答案及结构化时空证据字段。用户可基于pandas与pickle库快速解析这些结构化数据，以适配各类视频问答模型的训练与评估框架。

背景与挑战

背景概述

ST-Evidence-Instruct数据集由Salesforce研究团队于2026年创建，旨在推动视频问答领域从单纯答案预测向可解释性证据推理的范式转变。该数据集聚焦于时空证据驱动的视频问答，要求模型不仅回答关于视频内容的问题，还需提供对应的空间掩码与时间片段作为推理依据。通过整合CLEVRER与ViCaS视频源，并利用Gemini与Qwen生成大规模问答对，数据集涵盖了约16万条样本，为多模态推理、可解释人工智能及视频理解研究提供了关键基准。其发布促使研究者重新审视视频问答中证据追踪的挑战，对构建具备因果推理能力的视觉语言模型具有重要引领作用。

当前挑战

该数据集核心挑战在于解决视频问答中时空证据的联合推理难题。传统视频问答多聚焦于全局语义理解，而ST-Evidence-Instruct要求模型在动态场景中同步定位空间对象（如掩码区域）与时间事件（如起止帧段），并基于此生成可验证的答案。构建过程中，数据生成依赖GroundingDINO与SAM 3进行精确空间掩码标注，但自动化工具在复杂遮挡与运动模糊场景下易引入噪声；同时，Gemini与Qwen自动生成的问答对需严格校验答案逻辑与证据一致性，大规模数据清洗成为瓶颈。此外，46GB的视频帧与掩码文件对存储与预处理效率提出较高要求，跨源视频的时空对齐亦增加了标注复杂度。

常用场景

经典使用场景

ST-Evidence-Instruct数据集专为时空证据驱动的视频问答任务而设计，其经典用途在于训练模型从视频中同时定位空间掩码与时间片段，从而依据可视证据回答复杂问题。该数据集融合了CLEVRER和ViCaS两大视频源，前者提供经GroundingDINO精炼的物体掩码，后者则包含由Gemini与Qwen生成的多选题及其时空注释。研究者可通过约16万条样本，引导模型学习如何将问题中的语义线索与视频帧中的具体对象及时序片段精准关联，进而生成具有可解释性的答案。这一场景是迈向视频理解可解释性的关键一步，尤其适用于需要透明推理链的任务。

实际应用

在实际应用中，ST-Evidence-Instruct所孕育的时空证据推理能力可广泛赋能需要高可靠性的视频分析场景。例如，在智能监控领域，系统不仅需回答‘是否发生异常事件’，更应提供事件发生的具体时间点与涉及目标的精准位置。在自动驾驶中，模型可依据视频帧中的空间掩码及时序证据，解释为何在特定路口采取制动操作。此外，在视频检索与摘要生成方面，该数据集训练出的模型能依据用户问题定位相关视频片段并高亮关键对象，从而提升人机交互的透明度和可信度。这些场景均受益于模型具备的‘看到并证明’的推理能力。

衍生相关工作

ST-Evidence-Instruct的发布催生了多项围绕时空证据建模的衍生研究。一方面，研究者借鉴其掩码生成与时间标注机制，构建了类似的可解释视频问答数据集，如基于Ego4D扩充的家居证据问答集。另一方面，该数据集成为训练多模态大模型（如Video-LLaVA）证据链对齐能力的重要桥梁，相关工作在CVPR、ECCV等顶会中持续涌现。此外，基于其时空证据格式，学术界提出了若干新型推理框架，例如联合学习时空注意力掩码的端到端模型，以及利用对比学习强化证据-答案一致性的方法。这些工作共同深化了视频理解领域中可解释推理的理论与实践路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集