Salesforce/ST-Evidence-Bench

Name: Salesforce/ST-Evidence-Bench
Creator: Salesforce
Published: 2026-05-01 23:04:08
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/Salesforce/ST-Evidence-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ST-Evidence是一个用于评估视频理解中时空证据生成的综合基准数据集。它包含两个任务：生成任务(Gen)和多项选择题任务(MCQ)。数据集包含约1,300个6fps的视频，带有问题-答案对的时间段和空间掩码注释。视频内容涵盖多个领域。生成任务需要根据视频内容生成答案和时空证据，而多项选择题任务则需要从给定选项中选择正确答案。数据集提供了详细的评估指标，包括QA准确率、时间IoU/IoP和空间质量等。

ST-Evidence is a comprehensive benchmark dataset for evaluating spatio-temporal evidence generation in video understanding. It encompasses two distinct tasks: the generation task (Gen) and the multiple-choice question (MCQ) task. The dataset comprises approximately 1,300 6fps videos, annotated with temporal segments of question-answer pairs and spatial masks. The videos span a wide range of domains. The generation task requires generating corresponding answers and spatio-temporal evidence based on the video content, whereas the MCQ task demands selecting the correct answer from the provided candidate options. The dataset provides detailed evaluation metrics, including QA accuracy, temporal IoU/IoP, spatial quality, and so on.

提供机构：

Salesforce

搜集汇总

数据集介绍

构建方式

ST-Evidence-Bench数据集专为评估视频理解中的时空证据生成能力而设计，涵盖生成与多选题两大任务。其构建基于约1,300个以6帧每秒采样的视频片段，围绕视频内容精心设计问题-答案对，并标注了对应的时序片段与空间掩膜作为证据。数据集的注释文件采用CSV格式存储，其中生成任务包含问题、答案、候选答案及时间证据片段等信息；多选题任务则额外提供了空间掩膜选项与时间片段选项的元数据文件。所有视频、掩膜及预渲染的选项图像均以压缩包形式提供，便于高效下载与处理。

使用方法

使用者可通过HuggingFace Hub的snapshot_download方法一键获取完整数据集，或手动下载各压缩包并解压。加载数据时，使用Pandas读取CSV注释文件即可获得结构化的问答对与证据标注；对于掩膜数据，需配合Python的tarfile与json模块进行解压与解析。在生成任务中，模型需输出答案、时序区间与空间掩膜，随后按照官方提供的评估脚本计算准确率与各类IoU指标。该数据集以CC-BY-NC 4.0许可发布，仅限研究用途，使用时需引用其发表的学术论文。

背景与挑战

背景概述

ST-Evidence-Bench数据集由Salesforce研究团队于2025年3月发布，旨在填补视频理解领域中时空证据生成与验证的评估空白。该数据集包含约1300个以6帧每秒采样的视频，涵盖多样化的视频内容，并设计了生成与多项选择问答两项核心任务。其核心研究问题聚焦于模型能否在视频问答过程中定位并生成精准的时空证据（即相关的时间片段与空间掩码），从而推动视频问答任务从仅关注答案正确性向具备可解释性的证据推理迈进。该数据集的提出，为评估视频理解模型在细粒度时空定位、证据生成质量及多模态对齐能力方面提供了标准化基准，对推动可解释视频理解技术的发展具有重要影响力。

当前挑战

ST-Evidence-Bench所应对的领域问题挑战在于，传统视频问答数据集仅评估答案的准确性，而忽略了模型是否真正理解并能够定位支撑答案的时空证据。这导致模型可能依赖表面模式而非真实推理给出答案。该数据集通过引入时空证据生成与验证任务，迫使模型同时处理时间定位、空间掩码生成与答案推理的联合挑战。在构建过程中，面临的挑战包括：如何为大量视频精确标注时序片段与空间掩码，确保标注的一致性与准确性；如何设计多样化的答案选项以覆盖真实场景中的推理复杂度；以及如何整合压缩后的视频、掩码和元数据，在控制存储开销（约10.4GB）的同时保持数据集的丰富性和可用性。

常用场景

经典使用场景

ST-Evidence-Bench作为视频理解领域的一项开创性基准数据集，其核心价值在于为时空证据生成与评估提供标准化平台。该数据集经典的使用场景聚焦于视频问答任务中的可解释性推理，要求模型不仅给出正确答案，还需准确定位时空维度的关键证据片段。具体而言，在生成任务中，模型需从约1300段多样化的视频中提取与问题相关的连续帧区间和空间掩码；而在多项选择任务中，模型则需从候选的时空选项中精准匹配证据。这种双重任务设计使研究者能够全面评估模型在时空推理上的性能，推动视频理解从黑箱预测迈向透明可验证的智能决策。

解决学术问题

该数据集精准解决了视频问答领域长期存在的证据可溯源性难题。传统视频问答系统侧重于最终的答案准确率，却忽视了对推理过程的可信度验证，导致模型在复杂情境下的可靠性存疑。ST-Evidence-Bench通过引入时空IoU、IoP以及J&F分数等细粒度评估指标，为学术界提供了衡量模型证据生成质量的统一标尺。它促使研究者重新审视模型是否真正理解视频内容，而非简单依赖表面统计关联。其意义在于推动了可解释人工智能在视频理解中的实质性进展，为建立更可信的视觉推理系统奠定了数据基础。

实际应用

在实际应用层面，该数据集为智能视频监控、自动驾驶场景理解以及医疗影像分析等高风险领域提供了关键支撑。例如，在安防系统中，模型不仅能识别异常事件，还能通过时空证据定位事件发生的精确时空位置，辅助调查人员快速回溯关键画面。在自动驾驶场景中，时空证据可用于验证车辆对行人轨迹预测的合理性，提升决策透明度和安全性。此外，该数据集还可赋能教育领域的视频内容分析，帮助学生理解复杂动态过程背后的时序逻辑，展现出广阔的应用前景。

数据集最近研究