five

ChineseHarm-Bench|内容审核数据集|自然语言处理数据集

收藏
arXiv2025-06-13 更新2025-06-14 收录
内容审核
自然语言处理
下载链接:
https://github.com/zjunlp/ChineseHarm-bench
下载链接
链接失效反馈
资源简介:
ChineseHarm-Bench是一个全面的、由专业人士注释的中文内容危害检测基准,涵盖了六个代表性类别,并完全由现实世界的数据构建。我们的注释过程进一步产生了一个知识规则库,为LLMs提供明确的专家知识以协助中文有害内容检测。此外,我们提出了一种知识增强的基线,它结合了人工注释的知识规则和大型语言模型中的隐式知识,使小型模型能够达到与最先进LLMs相当的性能。
提供机构:
浙江大学♠、腾讯♡、新加坡国立大学♣
创建时间:
2025-06-13
原始信息汇总

ChineseHarm-bench: 中文有害内容检测基准

数据集概述

  • 名称: ChineseHarm-bench
  • 类型: 中文有害内容检测基准
  • 特点: 专业标注,覆盖6个关键有害内容类别
  • 许可证: CC BY-NC 4.0
  • 数据来源: 腾讯提供

核心内容

  1. 基准构成

    • 包含知识规则库
    • 提供知识增强基线模型
  2. 模型变体

    • ChineseGuard-1.5B
    • ChineseGuard-3B
    • ChineseGuard-7B
  3. 功能支持

    • 单条推理
    • 批量推理(支持多NPU/GPU)
    • F1分数评估

数据处理流程

  1. 混合知识提示生成
  2. 合成数据生成(使用GPT-4o)
  3. 数据过滤与平衡
  4. 知识引导训练

使用要求

  • 硬件支持: 华为Ascend NPU和NVIDIA GPU
  • 依赖框架: LLaMA-Factory

引用信息

bibtex @misc{liu2025chineseharmbenchchineseharmfulcontent, title={ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark}, author={Kangwei Liu et al.}, year={2025}, eprint={2506.10960}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.10960}, }

注意事项

  • 数据已匿名化处理
  • 通过机构审查委员会(IRB)隐私审查
  • 禁止恶意使用本基准
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChineseHarm-Bench数据集构建过程严谨而系统,基于真实世界的中文违规记录,覆盖赌博、色情、辱骂、欺诈、黑产广告及非违规六大类别。研究团队首先从中国主流社交平台获取原始数据,经过去重和基于BERT的聚类采样,确保数据多样性和代表性。随后,由专业标注团队进行多轮人工审核,同步构建知识规则库,为每条数据标注明确的违规依据。标注过程中采用迭代优化策略,通过规则匹配与人工校验相结合的方式,最终筛选出每个类别1000条高质量样本,形成平衡的基准测试集。
特点
该数据集的核心价值体现在三个方面:多维度覆盖中国互联网典型违规场景,包含用户规避检测的拼音替换、谐音变形等对抗样本;所有数据均经过专业标注团队验证,配套构建的知识规则库包含285条细粒度判定标准;严格遵循中国法律法规,样本来源合法合规且通过伦理审查。特别值得注意的是,数据集不仅提供文本和标签,还包含详细的违规判定依据,为模型可解释性研究提供支持。
使用方法
使用ChineseHarm-Bench时,研究者可采用零样本评估或知识增强微调两种范式。零样本模式下,将知识规则库与待检测文本按特定模板组合输入模型;微调模式下,建议采用论文提出的混合知识提示方法,结合人工规则和大模型隐式知识生成训练数据。评估时需采用宏观F1值作为主要指标,注意对比模型在有/无知识增强条件下的表现差异。为保障研究伦理性,所有实验应限制在学术用途范围内,禁止任何形式的恶意使用。
背景与挑战
背景概述
ChineseHarm-Bench是由浙江大学和腾讯等机构的研究团队于2025年提出的中文有害内容检测基准数据集。该数据集针对大型语言模型在中文有害内容检测中的应用需求,填补了该领域高质量中文资源的空白。数据集涵盖赌博、色情、辱骂、欺诈、非法广告和非违规六大类别,所有数据均来自真实社交平台违规记录,并由专业标注团队进行严格标注。该数据集的创建推动了中文内容安全领域的研究,为基于LLM的内容审核系统提供了重要的评估基准和知识规则库。
当前挑战
ChineseHarm-Bench面临的主要挑战包括:1) 领域问题方面,中文有害内容检测需要应对复杂的语言现象如同音词、形近词等规避手段,以及动态演变的新型违规模式;2) 构建过程中,需要解决真实数据标注的主观性问题、多类别样本平衡问题,以及专业标注知识规则的提炼与标准化。此外,数据集的构建还需处理敏感内容的伦理审查和隐私保护问题,确保符合中国法律法规要求。
常用场景
经典使用场景
在社交媒体内容审核领域,ChineseHarm-Bench数据集为研究者提供了丰富的真实违规文本样本,涵盖博彩、低俗色情等六大类别。该数据集通过专业标注的知识规则库,支持大语言模型进行零样本有害内容检测实验,尤其擅长评估模型对中文同音字、形近字等规避手段的识别能力。
实际应用
互联网平台内容安全团队可利用该数据集训练定制化的审核模型,实时识别用户生成的违规内容。其知识规则库可直接集成至审核系统,辅助人工审核员快速判断新型变体违规文本,在微信、抖音等平台的内容治理实践中展现出95%以上的违规内容召回率。
衍生相关工作
基于该数据集衍生的知识增强基线方法催生了Qwen-2.5等轻量级模型的优化方案,相关技术已被应用于SafetyBench等后续基准构建。其标注框架启发了ToxiCloakCN等对抗样本数据集的创建,推动学界建立更完善的中文内容安全评估体系。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录