ChineseHarm-Bench

github2025-06-13 更新2025-06-14 收录

下载链接：

https://github.com/zjunlp/ChineseHarm-bench

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了ChineseHarm-Bench，一个专业标注的中文有害内容检测基准，涵盖六个关键类别。它包括一个知识规则库以增强检测能力，以及一个知识增强的基线，使较小的LLMs能够匹配最先进的性能。

We introduce ChineseHarm-Bench, a professionally annotated Chinese harmful content detection benchmark that covers six key categories. It includes a knowledge rule library to enhance detection capabilities, as well as a knowledge-augmented baseline that allows smaller LLMs to match state-of-the-art performance.

创建时间：

2025-05-21

原始信息汇总

ChineseHarm-bench 数据集概述

数据集基本信息

名称: ChineseHarm-bench
类型: 中文有害内容检测基准
许可证: CC BY-NC 4.0
警告: 包含可能具有毒性、冒犯性或令人不安的内容，使用时需谨慎

数据集特点

覆盖范围: 包含6个关键类别的中文有害内容
标注质量: 专业标注
增强特性: 包含知识规则库以增强检测能力

数据集构成

基准构建: 包含详细构建流程（参考论文）
数据来源: 经数据所有组织授权获取
隐私保护: 数据已匿名化并经机构审查委员会(IRB)审核

使用方法

推理方式:
- 单条推理
- 批量推理（支持多NPU/GPU）
评估指标: F1分数计算

基准方法

混合知识提示生成
合成数据生成（使用GPT-4o）
数据处理（过滤和采样）
知识引导训练

致谢

数据提供: 腾讯
训练代码库: LLaMA-Factory

引用格式

bibtex @misc{liu2025chineseharmbenchchineseharmfulcontent, title={ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark}, author={Kangwei Liu and Siyuan Cheng and Bozhong Tian and Xiaozhuan Liang and Yuyang Yin and Meng Han and Ningyu Zhang and Bryan Hooi and Xi Chen and Shumin Deng}, year={2025}, eprint={2506.10960}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.10960}, }

相关链接

搜集汇总

数据集介绍

构建方式

在中文有害内容检测领域，ChineseHarm-Bench通过专业标注流程构建了涵盖六大关键类别的基准数据集。该数据集采用知识规则库增强的构建方法，通过混合知识提示技术生成多样化指令，并基于GPT-4o合成训练数据。所有数据均经过机构审查委员会(IRB)的隐私保护审核，并采用类别平衡抽样策略确保数据质量。构建过程中严格遵循伦理规范，与数据提供方签署正式授权协议，确保数据来源的合法合规性。

特点

作为专业的中文有害内容检测基准，ChineseHarm-Bench展现出多维度特征优势。数据集覆盖歧视、暴力等六大有害内容类别，每个类别包含3000个平衡样本。其独特的知识增强机制将规则库与深度学习相结合，显著提升了小规模语言模型的检测性能。数据集提供1.5B/3B/7B三种规模的预训练模型变体，支持华为昇腾NPU和英伟达GPU双硬件平台，为研究者提供灵活的部署选择。严格的数据匿名化处理确保符合CC BY-NC 4.0许可的隐私保护要求。

使用方法

该数据集支持端到端的科研工作流程，研究者可通过Hugging Face获取预训练模型。使用流程包含单条文本检测和批量推理两种模式，支持多设备并行计算。典型应用场景包括：通过single_infer.py进行实时内容审核，或使用batch_infer.py完成大规模数据筛查。评估阶段调用calculate_metrics.py计算F1值等指标。对于模型微调需求，数据集提供完整的训练管线，包括提示生成、数据合成、清洗过滤等标准化模块，可通过LLaMA-Factory框架实现知识引导的模型训练。所有脚本均提供详细的参数配置说明，支持研究者根据实际需求进行定制化开发。

背景与挑战

背景概述

ChineseHarm-Bench是由浙江大学联合腾讯公司于2025年推出的中文有害内容检测基准数据集，其核心研究目标在于构建一个涵盖六类关键有害内容的专业标注体系。该数据集通过融合知识规则库与知识增强基线模型，显著提升了小型语言模型在有害内容识别领域的性能表现，填补了中文网络空间内容安全评估工具的空白。作为首个系统化解决中文语境下多维度有害内容检测难题的基准，ChineseHarm-Bench为内容审核算法研发提供了标准化评估框架，对促进网络生态治理具有重要实践价值。

当前挑战

在解决领域问题层面，该数据集面临中文网络用语动态演化带来的概念漂移挑战，需持续应对新型变体有害内容的识别难题；同时需平衡敏感内容标注的粒度与模型泛化能力之间的张力。构建过程中，研究团队遭遇多模态有害内容标注标准统一的技术障碍，以及用户隐私保护与数据可用性之间的伦理平衡问题。此外，知识规则库的构建需要克服领域专家标注成本高昂与标注一致性维护的双重压力。

常用场景

经典使用场景

在自然语言处理领域，ChineseHarm-Bench数据集为中文有害内容检测提供了标准化的评估基准。该数据集广泛应用于训练和评估各类机器学习模型，特别是大型语言模型在识别敏感、不当或违法内容方面的性能。研究人员通过该数据集能够系统地测试模型在六类主要有害内容上的检测能力，包括但不限于暴力、仇恨言论和欺诈信息等敏感类别。

解决学术问题

ChineseHarm-Bench有效解决了中文网络空间安全研究中的关键挑战，即缺乏高质量、多类别的有害内容标注数据。该数据集通过专业标注和知识规则库的构建，显著提升了小规模语言模型的有害内容检测性能，使其能够达到与最先进模型相当的水平。这一突破为资源受限环境下的内容安全防护提供了可行的技术路径。

衍生相关工作

围绕ChineseHarm-Bench数据集已衍生出多项重要研究，包括知识增强的检测方法、混合提示工程以及合成数据生成技术。特别是团队开发的ChineseGuard系列模型，通过知识引导训练策略，在不同规模参数下均展现出优异的检测性能。这些工作为中文内容安全领域建立了新的技术标准和研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

ChineseHarm-Bench

ChineseHarm-bench 数据集概述

数据集基本信息

数据集特点

数据集构成

相关资源

使用方法

基准方法

致谢

引用格式

相关链接