CNTP
收藏github2025-06-08 更新2025-06-09 收录
下载链接:
https://github.com/thomasyyyoung/ToxiBenchCN
下载链接
链接失效反馈官方服务:
资源简介:
ToxiBenchCN是一个全面的基准测试,用于评估大型语言模型(LLMs)在检测受扰动的有毒中文内容方面的鲁棒性。基于8种多模态扰动技术(视觉、语音、语义)的新分类法,我们策划了CNTP数据集,并基准测试了9种最先进的LLMs,揭示了关键弱点和过度校正模式。我们还探索了两种轻量级增强策略:上下文学习(ICL)和监督微调(SFT)。
ToxiBenchCN is a comprehensive benchmark designed to evaluate the robustness of large language models (LLMs) in detecting perturbed toxic Chinese content. Leveraging a novel taxonomy of 8 multimodal perturbation techniques covering visual, audio and semantic modalities, we curated the CNTP dataset and benchmarked 9 state-of-the-art LLMs, uncovering key vulnerabilities and overcorrection patterns. We also explored two lightweight enhancement strategies: in-context learning (ICL) and supervised fine-tuning (SFT).
创建时间:
2025-05-24
原始信息汇总
ToxiBenchCN 数据集概述
📌 数据集简介
- 名称:ToxiBenchCN
- 目的:评估大型语言模型(LLMs)在检测扰动中文毒性内容方面的鲁棒性
- 核心内容:基于8种多模态扰动技术构建的CNTP数据集
- 研究机构:
- 上海交通大学
- 清华大学
- 奇虎360
- 新加坡南洋理工大学
📊 扰动分类体系
| 类别 | 类型(缩写) | 描述 |
|---|---|---|
| 视觉(字形) | VSim | 用视觉相似字符替换原字符 |
| Split | 将字符分解为偏旁或笔画 | |
| Trad | 用繁体字替代简体字 | |
| 语音 | PY_Init | 使用拼音首字母缩写毒性词汇 |
| PY_Full | 使用完整拼音拼写表示毒性内容 | |
| Homo | 用同音词伪装毒性内容 | |
| 语义 | Shuffle | 打乱字符顺序改变语义结构 |
| Emoji | 用表情符号替换字符表达攻击性含义 |
🔑 关键发现
- LLMs在多模态扰动下的毒性检测能力有限
- 小规模ICL/SFT可能导致过度矫正问题
📄 引用信息
bibtex @article{yang2025exploring, title={Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings}, author={Yang, Shujian and Cui, Shiyao and Hu, Chuanrui and Wang, Haicheng and Zhang, Tianwei and Huang, Minlie and Lu, Jialiang and Qiu, Han}, journal={arXiv preprint arXiv:2505.24341}, year={2025} }
📁 相关资源
- ACL 2025论文
- CNTP数据集
- 基准测试结果
搜集汇总
数据集介绍

构建方式
在中文网络环境日益复杂的背景下,CNTP数据集的构建采用了系统化的多模态扰动策略。研究团队基于视觉字形、语音学和语义学三大维度,精心设计了8种扰动技术(包括字形相似替换、拼音缩写、同音词替换等),对原始毒性内容进行多层次改造。通过人工校验与模型验证相结合的方式,确保每个扰动样本既保留原始毒性特征,又具备自然语言变异特性,最终形成包含多样化对抗样本的基准数据集。
特点
该数据集最显著的特点在于其首创的中文多模态扰动体系,全面覆盖了视觉、听觉和语义层面的对抗模式。数据集包含经过严格标注的毒性文本及其8种扰动变体,每种扰动类型均配有详尽的元数据说明。特别值得注意的是,数据集揭示了传统毒性检测模型在字形分解、拼音转换等中文特有扰动场景下的脆弱性,为研究中文语境下的对抗攻击提供了重要实证基础。
使用方法
研究者可通过下载标准化的JSON格式数据包快速接入CNTP数据集,其清晰的目录结构分别存储原始文本与各扰动变体。建议使用流程包括:首先评估基准模型在原始测试集上的表现,继而系统测试各扰动类型的检测鲁棒性。数据集配套提供的标注指南和扰动分类表,可有效支持监督微调、上下文学习等增强实验。为保障研究可比性,推荐采用论文中报告的标准化评估指标进行性能度量。
背景与挑战
背景概述
CNTP数据集由上海交通大学、清华大学、奇虎360及新加坡南洋理工大学的研究团队联合构建,旨在探索中文有毒内容检测中的多模态挑战。该数据集基于8种多模态扰动技术(包括视觉、语音和语义层面),系统性地评估了大型语言模型(LLMs)在识别扰动中文有毒内容方面的鲁棒性。研究团队通过构建这一基准测试,揭示了LLMs在应对复杂扰动时的关键弱点,并提出了两种轻量级增强策略:上下文学习(ICL)和监督微调(SFT)。该数据集的发布为中文自然语言处理领域的有毒内容检测研究提供了重要的基准和工具。
当前挑战
CNTP数据集面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,中文有毒内容检测本身具有复杂性,尤其是当有毒内容经过视觉、语音或语义层面的扰动后,其识别难度显著增加。大型语言模型在面对这些多模态扰动时表现不佳,容易出现漏检或误检。在构建过程中,研究团队需要设计并实施8种不同类型的扰动技术,确保每种扰动既能有效模拟真实场景中的有毒内容变体,又能保持数据的多样性和平衡性。此外,如何避免模型在少量扰动样本上进行微调后出现的过校正现象,也是一个重要的挑战。
常用场景
经典使用场景
在中文网络内容安全领域,CNTP数据集通过引入视觉、语音和语义三个维度的扰动技术,为研究者提供了一个评估大型语言模型(LLMs)在识别扰动中文有害内容方面鲁棒性的标准测试平台。该数据集特别适用于研究模型在面对字形替换、拼音缩写、同音词替换等复杂扰动时的表现,成为衡量模型抗干扰能力的黄金基准。
实际应用
该数据集已成功应用于社交平台内容审核系统的优化实践。通过分析模型在CNTP上的失败案例,工程师能够针对性增强系统对变体脏话、谐音辱骂等隐蔽有害内容的识别能力。部分头部互联网企业已基于该数据集的扰动模式,构建了更鲁棒的实时过滤机制,有效降低了人工审核成本。
衍生相关工作
基于CNTP的基准测试催生了一系列创新研究,包括清华大学提出的多模态对抗训练框架MMDefender和上海交通大学开发的层次化注意力检测模型HATN。这些工作通过融合视觉特征与语音特征,显著提升了模型对跨模态扰动内容的识别准确率,相关成果已发表在ACL、EMNLP等顶级会议。
以上内容由遇见数据集搜集并总结生成



