iSafetyBench

Name: iSafetyBench
Creator: 佛罗里达中央大学
Published: 2025-08-01 15:55:53
License: 暂无描述

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

https://github.com/raiyaan-abdullah/iSafety-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

iSafetyBench是一个视频-语言基准数据集，专门为评估模型在工业环境中的性能而设计。该数据集包含1100个视频剪辑，来自真实世界的工业环境，并标注了98个常规操作和67个危险动作类别。每个视频剪辑都配有多项选择题，用于单标签和多标签评估，以实现VLMs在标准和安全关键环境中的细粒度评估。

提供机构：

佛罗里达中央大学

创建时间：

2025-08-01

原始信息汇总

iSafetyBench数据集概述

基本信息

数据集名称: iSafetyBench
类型: 视频-语言基准测试数据集
应用领域: 工业环境安全
关联会议: VISION25 Workshop - ICCVW 25
发布日期: 2025年7月12日（论文接受日期）

数据集内容

数据形式: 视频及语言标注
当前状态: 视频文件即将上传（README提及"videos in the dataset will be uploaded soon"）
已提供内容: 动作列表和视频标注文件（存储于本仓库中）

学术信息

论文状态: 即将发布（arXiv论文链接占位符显示"Paper coming soon"）
项目网站: http://raiyaan-abdullah.github.io/iSafety-Bench-webpage/

搜集汇总

数据集介绍

构建方式

iSafetyBench数据集的构建遵循了多阶段流程，以确保覆盖范围、动作多样性和标注质量。首先，研究团队定义了工业场景中的双重动作分类体系，包括常规（正常）动作和安全关键（危险）事件。这一分类体系基于工作场所操作手册、工业安全指南和公开的事故报告。随后，利用Gemini 2.5 Pro生成基于关键词的搜索查询，从YouTube检索候选视频，并通过人工审核确保视频相关性，最终剪辑为4-8秒的片段以聚焦目标动作。每个片段均经过半自动化标注流程，先由人工标注者撰写自由形式的动作描述，再通过Gemini 2.5 Pro生成预定义分类体系中的动作标签，最后由标注者复核以确保语义一致性和覆盖范围。

特点

iSafetyBench数据集包含1,100个真实工业场景视频片段，涵盖工厂、仓库、建筑工地等多种环境。数据集分为正常动作（680个片段，98个标签）和危险事件（420个片段，67个标签）两部分，平均每个片段标注2-3个动作。其独特之处在于支持开放词汇多标签标注，并配套设计单选和多选问题，用于零样本评估模型性能。数据集覆盖了从常规工业操作（如组装零件、操作机械）到危险事件（如结构坍塌、火灾）的全谱系场景，且包含室内外环境、不同光照条件及第一/第三人称视角，真实反映了工业场景的复杂性。

使用方法

iSafetyBench通过结构化多选题（MCQ）评估模型性能。每个视频片段关联两类问题：单选正确（15个干扰项中选1个正确答案）和多选正确（16个选项中识别所有适用答案）。干扰项通过Gemini 2.5 Pro生成语义或视觉相似但不正确的动作选项，并经人工验证以确保挑战性。评估指标包括：单选问题采用准确率，多选问题计算精确率、召回率和F1分数。该设计支持对模型判别性和包容性能力的全面评估，特别强调在零样本设置下测试模型对安全关键事件的泛化能力。数据集还提供按动作类别（如机械操作错误、火灾爆炸等）细分的性能分析，便于诊断模型在特定工业安全场景中的表现。

背景与挑战

背景概述

iSafetyBench是由中佛罗里达大学的研究团队于2025年提出的视频语言基准数据集，旨在评估视觉语言模型（VLMs）在工业环境中的安全关键场景下的表现。该数据集包含1,100个真实工业场景的视频片段，涵盖了98种常规操作和67种危险行为，支持开放词汇和多标签评估。iSafetyBench的推出填补了工业安全领域缺乏综合性评估工具的空白，为开发更鲁棒的多模态模型提供了重要基准。

当前挑战

iSafetyBench面临的挑战主要体现在两个方面：领域问题方面，工业场景中复杂的机械交互、危险事件的罕见性以及多标签动作的细粒度识别对现有模型构成严峻考验；构建过程方面，真实工业视频的获取难度大，危险场景标注需要专业知识，且需平衡开放词汇与标注一致性的矛盾。这些挑战使得即使最先进的模型如Ovis2-8B在危险场景识别准确率也仅为53.4%。

常用场景

经典使用场景

iSafetyBench作为工业环境安全领域的视频-语言基准测试数据集，其经典使用场景主要聚焦于评估视觉-语言模型（VLMs）在复杂工业场景中的零样本理解能力。该数据集通过精心设计的多标签动作标注和多项选择题，为研究者提供了系统评估模型在常规操作（如机械组装、物料搬运）与危险事件（如设备故障、结构坍塌）识别中的性能表现。其独特的多模态评估框架特别适用于测试模型在开放词汇、多标签场景下的细粒度视频理解能力，填补了工业安全领域缺乏标准化测试平台的空白。

实际应用

在实际应用层面，iSafetyBench可直接服务于工业智能监控系统的开发与优化。其数据特征（如4-8秒的实时监控视频片段、多视角拍摄的工厂/仓库场景）与工业安防需求高度契合，可用于训练设备故障预警系统、人员行为合规性检测算法等。特别在高风险领域如建筑施工、化工厂管理中，基于该基准优化的模型能显著提升对机械操作失误、火灾等突发事件的识别准确率，为《安全生产法》要求的智能风险防控提供技术实现路径。

衍生相关工作

该数据集已催生多个工业安全领域的衍生研究：在模型架构方面，启发开发了专注于危险事件时序建模的SafetyNet框架；在算法优化上，推动了基于对比学习的多标签损失函数改进；在应用层面，其标注体系被Adaptive Industrial Vision等项目扩展用于特定场景（如矿山作业）。同时，其开放词汇评估范式影响了后续基准如IndustrialVocab的设计，形成工业多模态理解的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集