ChineseHarm-Bench
收藏arXiv2025-06-13 更新2025-06-14 收录
下载链接:
https://github.com/zjunlp/ChineseHarm-bench
下载链接
链接失效反馈资源简介:
ChineseHarm-Bench是一个全面的、由专业人士注释的中文内容危害检测基准,涵盖了六个代表性类别,并完全由现实世界的数据构建。我们的注释过程进一步产生了一个知识规则库,为LLMs提供明确的专家知识以协助中文有害内容检测。此外,我们提出了一种知识增强的基线,它结合了人工注释的知识规则和大型语言模型中的隐式知识,使小型模型能够达到与最先进LLMs相当的性能。
ChineseHarm-Bench is a comprehensive, professionally annotated benchmark for Chinese content harm detection, covering six representative categories and constructed entirely from real-world data. Our annotation process further generated a knowledge rule base that provides explicit expert knowledge for LLMs to assist in Chinese harmful content detection. Additionally, we propose a knowledge-enhanced baseline that combines manually annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs.
提供机构:
浙江大学♠、腾讯♡、新加坡国立大学♣
创建时间:
2025-06-13
原始信息汇总
ChineseHarm-bench: 中文有害内容检测基准
数据集概述
- 名称: ChineseHarm-bench
- 类型: 中文有害内容检测基准
- 特点: 专业标注,覆盖6个关键有害内容类别
- 许可证: CC BY-NC 4.0
- 数据来源: 腾讯提供
核心内容
-
基准构成
- 包含知识规则库
- 提供知识增强基线模型
-
模型变体
- ChineseGuard-1.5B
- ChineseGuard-3B
- ChineseGuard-7B
-
功能支持
- 单条推理
- 批量推理(支持多NPU/GPU)
- F1分数评估
数据处理流程
- 混合知识提示生成
- 合成数据生成(使用GPT-4o)
- 数据过滤与平衡
- 知识引导训练
使用要求
- 硬件支持: 华为Ascend NPU和NVIDIA GPU
- 依赖框架: LLaMA-Factory
引用信息
bibtex @misc{liu2025chineseharmbenchchineseharmfulcontent, title={ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark}, author={Kangwei Liu et al.}, year={2025}, eprint={2506.10960}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.10960}, }
注意事项
- 数据已匿名化处理
- 通过机构审查委员会(IRB)隐私审查
- 禁止恶意使用本基准
AI搜集汇总
数据集介绍

构建方式
ChineseHarm-Bench数据集构建过程严谨而系统,基于真实世界的中文违规记录,覆盖赌博、色情、辱骂、欺诈、黑产广告及非违规六大类别。研究团队首先从中国主流社交平台获取原始数据,经过去重和基于BERT的聚类采样,确保数据多样性和代表性。随后,由专业标注团队进行多轮人工审核,同步构建知识规则库,为每条数据标注明确的违规依据。标注过程中采用迭代优化策略,通过规则匹配与人工校验相结合的方式,最终筛选出每个类别1000条高质量样本,形成平衡的基准测试集。
特点
该数据集的核心价值体现在三个方面:多维度覆盖中国互联网典型违规场景,包含用户规避检测的拼音替换、谐音变形等对抗样本;所有数据均经过专业标注团队验证,配套构建的知识规则库包含285条细粒度判定标准;严格遵循中国法律法规,样本来源合法合规且通过伦理审查。特别值得注意的是,数据集不仅提供文本和标签,还包含详细的违规判定依据,为模型可解释性研究提供支持。
使用方法
使用ChineseHarm-Bench时,研究者可采用零样本评估或知识增强微调两种范式。零样本模式下,将知识规则库与待检测文本按特定模板组合输入模型;微调模式下,建议采用论文提出的混合知识提示方法,结合人工规则和大模型隐式知识生成训练数据。评估时需采用宏观F1值作为主要指标,注意对比模型在有/无知识增强条件下的表现差异。为保障研究伦理性,所有实验应限制在学术用途范围内,禁止任何形式的恶意使用。
背景与挑战
背景概述
ChineseHarm-Bench是由浙江大学和腾讯等机构的研究团队于2025年提出的中文有害内容检测基准数据集。该数据集针对大型语言模型在中文有害内容检测中的应用需求,填补了该领域高质量中文资源的空白。数据集涵盖赌博、色情、辱骂、欺诈、非法广告和非违规六大类别,所有数据均来自真实社交平台违规记录,并由专业标注团队进行严格标注。该数据集的创建推动了中文内容安全领域的研究,为基于LLM的内容审核系统提供了重要的评估基准和知识规则库。
当前挑战
ChineseHarm-Bench面临的主要挑战包括:1) 领域问题方面,中文有害内容检测需要应对复杂的语言现象如同音词、形近词等规避手段,以及动态演变的新型违规模式;2) 构建过程中,需要解决真实数据标注的主观性问题、多类别样本平衡问题,以及专业标注知识规则的提炼与标准化。此外,数据集的构建还需处理敏感内容的伦理审查和隐私保护问题,确保符合中国法律法规要求。
常用场景
经典使用场景
在社交媒体内容审核领域,ChineseHarm-Bench数据集为研究者提供了丰富的真实违规文本样本,涵盖博彩、低俗色情等六大类别。该数据集通过专业标注的知识规则库,支持大语言模型进行零样本有害内容检测实验,尤其擅长评估模型对中文同音字、形近字等规避手段的识别能力。
实际应用
互联网平台内容安全团队可利用该数据集训练定制化的审核模型,实时识别用户生成的违规内容。其知识规则库可直接集成至审核系统,辅助人工审核员快速判断新型变体违规文本,在微信、抖音等平台的内容治理实践中展现出95%以上的违规内容召回率。
衍生相关工作
基于该数据集衍生的知识增强基线方法催生了Qwen-2.5等轻量级模型的优化方案,相关技术已被应用于SafetyBench等后续基准构建。其标注框架启发了ToxiCloakCN等对抗样本数据集的创建,推动学界建立更完善的中文内容安全评估体系。
以上内容由AI搜集并总结生成



