小样本违规监管算法训练评估数据集

Name: 小样本违规监管算法训练评估数据集
Creator: 浙江大学
License: 暂无描述

国家基础学科公共科学数据中心2025-12-20 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=69442512195d2666dedf0729&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集面向现代服务业智能监管需求，聚焦 “低频、高风险、小样本” 违规检测痛点，针对传统智能监管技术场景局限强、依赖大规模标注数据的问题，为小样本违规识别、跨领域规则迁移及多模态监管模型研发提供核心支撑，由浙江大学、浙江大学滨江研究院联合构建。数据集采集于 2023 至 2024 年，覆盖浙江大学、浙江国网下属分公司、街道场景等多类监管场景。数据采集采用 “专有数据 + 公开数据” 互补模式，通过大疆无人机、HIKVISION 摄像头等设备获取多时段多角度视觉数据，结合高质量开源文本对话数据，经隐私脱敏、去重格式化及 “双人标注 + 第三方复核” 的专业质检流程，确保数据合规与质量。数据集核心围绕 “跨模态小样本学习与训练效率提升” 目标，包含 3.39GB 数据资源，涵盖图片分类、目标检测、行为识别及阅读理解四类任务的完整训练与评估数据，采用 jpg、json、txt 等多种格式存储。同时提供 GroundVLP 零样本视觉定位算法、GVLM 通用视觉语言模型框架的源代码，以及 OM_M_Model、Bert-base-uncased 等 8 类模型文件，配套 2 篇科研论文与 4 项发明专利。该数据集创新采用规则抽象、跨模态映射等技术，实现多领域知识迁移，可显著提升监管算法训练效率并减少 30% 人工标注成本。其多场景覆盖特性打破传统数据集局限，为智能监管技术从 “特定场景定制” 向 “通用化适配” 转型提供重要基准，可广泛支撑城市治理、电力能源、工厂生产等领域的监管智能化平台研发与应用落地。数据集将完全共享，任何科研机构、企业或个人均可免费获取，用于学术研究与非商业应用。

提供机构：

浙江大学

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集由浙江大学等单位构建，旨在支持小样本违规识别与跨领域规则迁移，为智能监管算法训练提供多模态数据资源。它覆盖多种监管场景，采用专业质检流程，可提升训练效率并降低标注成本，适用于城市治理、电力能源等领域的监管智能化应用。

以上内容由遇见数据集搜集并总结生成