CH-SV

github2025-06-02 更新2025-06-19 收录

下载链接：

https://github.com/DLUTSSL/CH-SV

下载链接

链接失效反馈

官方服务：

资源简介：

CH-SV是一个用于多类型中文有害短视频检测的基准数据集，包含核心代码、预览样本和补充材料。数据集包括六类样本视频，并提供了完整的测试集视频。所有视频均为互联网上公开的内容，仅用于学术研究目的。

CH-SV is a benchmark dataset for multi-type Chinese harmful short video detection, which includes core code, preview samples, and supplementary materials. The dataset encompasses six categories of sample videos and provides a complete test set of videos. All videos are publicly available on the internet and are intended solely for academic research purposes.

创建时间：

2025-05-31

原始信息汇总

CH-SV 数据集概述

数据集简介

CH-SV 是一个用于多类型中文有害短视频检测的基准数据集，包含核心代码、预览样本和补充材料。

项目结构

code/: 包含 HAVE (HArmful Video dEtection) 的核心实现
- code/models/StudentModel.py: HAVE 主架构
- code/src/CrossmodalTransformer.py: 跨模态语义交互实现
- code/src/STOG_different_modal.py: 模态内语义聚合实现
- code/video_prompting.py: 视频语义提示实现
supplementary_material/: 包含与论文相关的补充材料
- 展示注释系统的演示视频
- 三种数据收集策略衍生的部分关键词列表文件：
  - Normality_keywords.txt: 10 个基于领域的关键词组
  - Fakeness_keywords.txt: 10 个基于事件的关键词集
  - Othertypes_keywords.txt: 包含暴力、粗俗、冒犯和危险内容，每类 10 个关键词
video_samples/: 提供 CH-SV 数据集的预览子集，包含六类视频样本，每类 10 个

测试集

完整测试集视频可通过夸克云下载：
- 下载链接: https://pan.quark.cn/s/c5d2fa2cfad2
- 访问密码: Zjmu

伦理考虑与隐私

所有视频在收集时均为公开可用内容
未故意收集或包含个人身份信息 (PII)
内容选择和注释仅用于学术研究目的
注释由经过培训的注释员按照详细的伦理准则进行
数据集仅限用于有害内容检测的非商业研究

许可与访问

代码采用 MIT License
测试数据集和补充材料采用 CC BY-NC-ND 4.0 许可
- 允许共享（需署名）
- 禁止商业用途
- 禁止修改或衍生作品
如需在研究或出版物中使用数据集，请提前联系以确保适当使用并获取引用信息

搜集汇总

数据集介绍

构建方式

在多媒体内容安全研究领域，CH-SV数据集采用多维度构建策略，通过三种数据收集方法系统性地获取有害短视频样本。研究团队基于领域特征构建了10组常态关键词，针对虚假内容设计了10组事件关键词集，并对暴力、低俗等四类有害内容分别提取10个特征关键词。所有视频素材均来自互联网公开资源，由经过专业训练的标注人员按照严格的伦理准则进行多模态标注，确保数据采集过程符合学术规范。

使用方法

研究者可通过云存储平台获取完整的测试集资源，数据集遵循严格的非商业使用许可。使用前需详细阅读伦理使用条款，建议结合配套的HAVE检测框架进行实验，该框架提供跨模态Transformer和模态内语义聚合等核心组件。为保障研究合规性，任何学术引用需提前联系作者团队获取正式 citation 信息，且禁止对原始视频数据进行修改或衍生创作。

背景与挑战

背景概述

CH-SV数据集作为多类型中文有害短视频检测的基准，由专业研究团队构建，旨在应对数字媒体内容安全领域的迫切需求。随着短视频平台的迅猛发展，暴力、虚假、低俗等有害内容的泛滥已成为社会关注的焦点。该数据集通过整合六种主要的有害视频类别，为学术界提供了首个专注于中文语境下多模态有害内容识别的研究平台。其创新性体现在采用领域关键词与事件关键词相结合的数据采集策略，并引入跨模态语义交互的标注体系，为内容安全领域的算法研发奠定了重要基础。

当前挑战

构建CH-SV数据集面临双重挑战。在领域问题层面，有害视频检测需要克服语义模糊性难题，特别是中文语境下隐喻表达与敏感内容的边界界定。多模态特征的有效融合成为技术瓶颈，视频、音频与文本模态间的语义鸿沟亟待解决。在构建过程中，数据采集需平衡敏感内容覆盖度与伦理风险，标注体系的建立要求精确区分暴力、虚假等六类内容的细微差别。隐私保护与数据合规性也构成重要挑战，需确保所有样本符合学术研究伦理规范。

常用场景

经典使用场景

在多媒体内容安全领域，CH-SV数据集为多类型中文有害短视频检测提供了标准化的评估基准。该数据集通过涵盖暴力、低俗、冒犯、危险等六类有害内容，支持研究者开发跨模态语义交互与视频语义提示等先进算法。其标注系统与多策略关键词体系为模型训练提供了丰富的语义监督信号，特别适用于测试算法在复杂场景下的细粒度分类能力。

解决学术问题

CH-SV有效解决了有害内容检测领域三大核心问题：多模态特征融合的语义鸿沟问题通过跨模态Transformer架构得到缓解；短时视频片段的内容歧义性通过时空图注意力机制实现精准定位；数据稀缺性问题则通过基于领域与事件的关键词采集策略构建大规模样本。该数据集推动了内容安全领域从单模态分析到多模态协同理解的范式转变。

实际应用

该数据集的实际价值体现在社交媒体平台的内容审核系统中，其提供的多维度标注框架可直接指导工程实践。视频分享平台可基于HAVE模型架构部署实时过滤系统，对用户上传内容进行暴力行为识别、低俗语言检测等。教育机构亦可利用其关键词体系构建定制化过滤词库，在数字素养教育中实现有害内容预警。

数据集最近研究