ChineseHarm-Bench

Name: ChineseHarm-Bench
Creator: 浙江大学♠、腾讯♡、新加坡国立大学♣
Published: 2025-06-13 01:57:05
License: 暂无描述

arXiv2025-06-13 更新2025-06-14 收录

下载链接：

https://github.com/zjunlp/ChineseHarm-bench

下载链接

链接失效反馈

官方服务：

资源简介：

ChineseHarm-Bench是一个全面的、由专业人士注释的中文内容危害检测基准，涵盖了六个代表性类别，并完全由现实世界的数据构建。我们的注释过程进一步产生了一个知识规则库，为LLMs提供明确的专家知识以协助中文有害内容检测。此外，我们提出了一种知识增强的基线，它结合了人工注释的知识规则和大型语言模型中的隐式知识，使小型模型能够达到与最先进LLMs相当的性能。

ChineseHarm-Bench is a comprehensive, professionally annotated benchmark for Chinese content harm detection, covering six representative categories and constructed entirely from real-world data. Our annotation process further generated a knowledge rule base that provides explicit expert knowledge for LLMs to aid in Chinese harmful content detection. Additionally, we propose a knowledge-enhanced baseline that combines manually annotated knowledge rules and implicit knowledge inherent in large language models, enabling small-sized models to achieve performance on par with state-of-the-art LLMs.

提供机构：

浙江大学♠、腾讯♡、新加坡国立大学♣

创建时间：

2025-06-13

原始信息汇总

ChineseHarm-bench: 中文有害内容检测基准

数据集概述

名称: ChineseHarm-bench
类型: 中文有害内容检测基准
特点: 专业标注，覆盖6个关键有害内容类别
许可证: CC BY-NC 4.0
数据来源: 腾讯提供

核心内容

基准构成
- 包含知识规则库
- 提供知识增强基线模型
模型变体
- ChineseGuard-1.5B
- ChineseGuard-3B
- ChineseGuard-7B
功能支持
- 单条推理
- 批量推理（支持多NPU/GPU）
- F1分数评估

数据处理流程

混合知识提示生成
合成数据生成（使用GPT-4o）
数据过滤与平衡
知识引导训练

使用要求

硬件支持: 华为Ascend NPU和NVIDIA GPU
依赖框架: LLaMA-Factory

引用信息

bibtex @misc{liu2025chineseharmbenchchineseharmfulcontent, title={ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark}, author={Kangwei Liu et al.}, year={2025}, eprint={2506.10960}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.10960}, }

注意事项

数据已匿名化处理
通过机构审查委员会(IRB)隐私审查
禁止恶意使用本基准

搜集汇总

数据集介绍

构建方式

ChineseHarm-Bench数据集构建过程严谨而系统，基于真实世界的中文违规记录，覆盖赌博、色情、辱骂、欺诈、黑产广告及非违规六大类别。研究团队首先从中国主流社交平台获取原始数据，经过去重和基于BERT的聚类采样，确保数据多样性和代表性。随后，由专业标注团队进行多轮人工审核，同步构建知识规则库，为每条数据标注明确的违规依据。标注过程中采用迭代优化策略，通过规则匹配与人工校验相结合的方式，最终筛选出每个类别1000条高质量样本，形成平衡的基准测试集。

特点

该数据集的核心价值体现在三个方面：多维度覆盖中国互联网典型违规场景，包含用户规避检测的拼音替换、谐音变形等对抗样本；所有数据均经过专业标注团队验证，配套构建的知识规则库包含285条细粒度判定标准；严格遵循中国法律法规，样本来源合法合规且通过伦理审查。特别值得注意的是，数据集不仅提供文本和标签，还包含详细的违规判定依据，为模型可解释性研究提供支持。

使用方法

使用ChineseHarm-Bench时，研究者可采用零样本评估或知识增强微调两种范式。零样本模式下，将知识规则库与待检测文本按特定模板组合输入模型；微调模式下，建议采用论文提出的混合知识提示方法，结合人工规则和大模型隐式知识生成训练数据。评估时需采用宏观F1值作为主要指标，注意对比模型在有/无知识增强条件下的表现差异。为保障研究伦理性，所有实验应限制在学术用途范围内，禁止任何形式的恶意使用。

背景与挑战

背景概述

ChineseHarm-Bench是由浙江大学和腾讯等机构的研究团队于2025年提出的中文有害内容检测基准数据集。该数据集针对大型语言模型在中文有害内容检测中的应用需求，填补了该领域高质量中文资源的空白。数据集涵盖赌博、色情、辱骂、欺诈、非法广告和非违规六大类别，所有数据均来自真实社交平台违规记录，并由专业标注团队进行严格标注。该数据集的创建推动了中文内容安全领域的研究，为基于LLM的内容审核系统提供了重要的评估基准和知识规则库。

当前挑战

ChineseHarm-Bench面临的主要挑战包括：1) 领域问题方面，中文有害内容检测需要应对复杂的语言现象如同音词、形近词等规避手段，以及动态演变的新型违规模式；2) 构建过程中，需要解决真实数据标注的主观性问题、多类别样本平衡问题，以及专业标注知识规则的提炼与标准化。此外，数据集的构建还需处理敏感内容的伦理审查和隐私保护问题，确保符合中国法律法规要求。

常用场景

经典使用场景

在社交媒体内容审核领域，ChineseHarm-Bench数据集为研究者提供了丰富的真实违规文本样本，涵盖博彩、低俗色情等六大类别。该数据集通过专业标注的知识规则库，支持大语言模型进行零样本有害内容检测实验，尤其擅长评估模型对中文同音字、形近字等规避手段的识别能力。

实际应用

互联网平台内容安全团队可利用该数据集训练定制化的审核模型，实时识别用户生成的违规内容。其知识规则库可直接集成至审核系统，辅助人工审核员快速判断新型变体违规文本，在微信、抖音等平台的内容治理实践中展现出95%以上的违规内容召回率。

衍生相关工作

基于该数据集衍生的知识增强基线方法催生了Qwen-2.5等轻量级模型的优化方案，相关技术已被应用于SafetyBench等后续基准构建。其标注框架启发了ToxiCloakCN等对抗样本数据集的创建，推动学界建立更完善的中文内容安全评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集