InspecSafe-V1
收藏InspecSafe-V1 数据集概述
数据集基本信息
- 名称: InspecSafe-V1
- 版本: v1.0
- 类型: 多模态基准数据集
- 核心目标: 用于真实世界工业巡检场景中的安全评估
- 公开地址: https://huggingface.co/datasets/Tetrabot2026/InspecSafe-V1
- 论文地址: https://arxiv.org/abs/2601.21173
- 许可: 研究用途
数据规模与构成
- 巡检实例: 5,013 个
- 巡检点: 2,239 个
- 巡检机器人: 41 台
- RGB 物体类别: 234 个(长尾分布)
涵盖的工业场景
数据集包含五种代表性的工业环境:
- 隧道
- 电力设施
- 烧结/冶金设备区域
- 石油与天然气/石化工厂
- 煤炭输送栈桥/煤炭转运区域
机器人平台
涉及两类巡检机器人:
- 轮式巡检机器人
- 轨道式/悬挂轨道巡检机器人
数据模态与格式
每个巡检点关联同步的多模态记录(可用性因机器人和站点而异),典型格式包括:
- RGB 视频:
.mp4(每个巡检点短暂停留,通常约 10–15 秒) - 热成像/红外视频:
.mp4 - 音频:
.wav(例如,双声道;典型片段时长约 10–15 秒) - 点云:
.bag(ROS bag;短时间采集窗口,例如几秒钟) - 环境传感器(气体、温度、湿度等):
.txt
标注类型
1. 视觉:像素级多边形实例分割
为每个 RGB 关键帧提供 JSON 格式的基于多边形的实例分割标注。
2. 语言:场景描述与安全语义
每个实例包含一个文本文件,其中包含:
- 场景描述(总结视觉上下文和显著事件/物体)
- 安全等级标签(I–IV 级)。
标注规则:如果一张图像中出现多个危险源,最终安全等级由最严重的危险源决定。如果不存在安全因素,则标记为 IV 级。
3. 质量控制
数据集构建过程包括对以下内容进行多轮独立验证:
- 像素级视觉标注
- 文本级语义标注(描述 + 安全标签)
安全等级定义
数据集定义了四个离散的安全等级:
- I 级: 最高风险
- II 级: 中等风险
- III 级: 较低风险
- IV 级: 无安全因素 / 正常
注意:详细标准可能因场景而异(例如,石油与天然气场景中的 I 级标准可能与隧道场景不同)。请参阅数据集论文中的场景相关标准表。
数据集组织
数据集围绕巡检实例组织,旨在支持高效访问 (i) RGB 关键帧和标注,(ii) 同步的多模态记录,以及 (iii) 辅助参数文件。
论文描述的高级结构包括:
Annotations/- RGB 关键帧及其标签
- 通常分为 正常 和 异常 子集
- 每个关键帧通常包含:
- 图像文件(
.jpg/.png) - 多边形标注(
.json) - 语言 + 安全标签(
.txt)
- 图像文件(
Other modalities/- 与巡检点/实例对齐的多模态记录
Parameters/- 用于解析/对齐的辅助参数文件(例如,校准/外参、传感器配置等)
发布版本可能还包括索引/元数据文件,以利用标识符和时间戳促进跨模态对齐。
基准任务:基于 VLM 的安全评估
数据集设计用于评估视觉-语言模型在工业安全评估上的性能。典型的基准设置包括:
- 输入: RGB 关键帧(+ 标准化的提示模板)
- 输出:
- 生成的场景描述
- 预测的安全等级(I–IV 级)
训练/测试划分
- 训练集: 3,763 帧(正常: 3,014;异常: 749)
- 测试集: 1,250 帧(正常: 999;异常: 251)
为了缓解同一巡检点内高度相似的相邻帧可能导致的信息泄露,划分时对 RGB 视频进行了均匀的巡检点内采样。
推荐的研究任务
数据集可用于支持以下(但不限于)任务:
- 安全等级分类(I–IV 级)
- 视觉-语言安全推理(联合描述生成 + 风险判断)
- 工业条件下的开放词汇检测/分割
- 多模态融合(RGB + 热成像 + 音频 + 点云 + 传感器)
- 跨场景泛化与鲁棒性评估
- 工业物体类别的长尾识别
使用说明
- 数据集仅供研究使用。
- 在数据集声明的使用条款下,允许再分发、修改和创作衍生作品,但需要正确引用。
- 发布前已对隐私或安全敏感内容进行匿名化或移除。
引用
bibtex @misc{InspecSafe-V1, title={InspecSafe-V1: A Multimodal Benchmark for Safety Assessment in Industrial Inspection Scenarios}, author={Zeyi Liu and Shuang Liu and Jihai Min and Zhaoheng Zhang and Jun Cen and Pengyu Han and Songqiao Hu and Zihan Meng and Xiao He and Donghua Zhou}, year={2026}, eprint={2601.21173}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2601.21173}, }



