CNTP

Name: CNTP
Creator: 上海交通大学, 清华大学, 奇虎360, 南洋理工大学
Published: 2025-05-30 16:32:45
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://github.com/thomasyyyoung/ToxiBenchCN

下载链接

链接失效反馈

官方服务：

资源简介：

CNTP数据集是一个大规模的中文毒性内容数据集，包含约2,500个针对每种方法的扰动毒性中文内容。数据集基于对中文语言多模态特性的深入理解，旨在评估大型语言模型（LLMs）在检测扰动毒性中文内容方面的能力。数据集的建设遵循了三个关键原则：语言多样性、人类可读性和可理解性验证，以及通过平衡扰动率来控制扰动百分比。数据集的创建过程涉及从基础数据集中采样毒性内容，进行毒性实体提取，并将扰动嵌入到内容中。该数据集为研究LLMs在中文毒性内容检测中的性能提供了宝贵的资源。

The CNTP dataset is a large-scale Chinese toxic content dataset, containing approximately 2,500 perturbed toxic Chinese texts for each perturbation method. Built upon an in-depth understanding of the multimodal characteristics of the Chinese language, this dataset aims to evaluate the performance of Large Language Models (LLMs) in detecting perturbed toxic Chinese content. The construction of the dataset adheres to three core principles: linguistic diversity, human readability and comprehensibility validation, and controlling the perturbation percentage by balancing perturbation rates. The dataset creation process involves sampling toxic content from a base dataset, extracting toxic entities, and embedding perturbations into the content. This dataset serves as a valuable resource for studying the performance of LLMs in detecting Chinese toxic content.

提供机构：

上海交通大学, 清华大学, 奇虎360, 南洋理工大学

创建时间：

2025-05-30

原始信息汇总

ToxiBenchCN 数据集概述

基本信息

数据集名称：ToxiBenchCN
相关论文：Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings
会议信息：ACL-2025 Findings

数据集状态

当前状态：数据集和代码即将发布（coming soon）

研究背景

研究领域：中文有害内容检测
研究重点：多模态挑战（文本+其他模态）在中文有害内容检测中的应用

其他信息

官方仓库：https://github.com/thomasyyyoung/ToxiBenchCN

搜集汇总

数据集介绍

构建方式

CNTP数据集的构建基于对中文毒性内容的多模态扰动分类体系，首先从Toxi_CN基础数据集中筛选出具有代表性的毒性句子，随后通过GPT-4o-mini模型提取毒性实体，并应用8种扰动方法（包括字形、拼音和语义层面的扰动）生成多样化样本。为确保数据质量，采用人工验证机制对扰动后的句子进行可读性和语义一致性评估，最终形成包含20,087条扰动文本的高质量数据集。

使用方法

CNTP数据集适用于评估大语言模型对扰动中文毒性内容的检测能力。研究者可通过设定标准提示模板（如中英文分类指令）测试模型性能，重点关注检测率（Detection Rate）和误判率（Error Rate）。此外，数据集支持上下文学习（ICL）和微调（SFT）等增强策略的验证，例如在提示中添加少量扰动样本或对模型进行小规模微调，但需注意可能引发的过度矫正现象（如非毒性内容误判）。数据集的层级化扰动标签便于针对性分析模型在不同模态扰动下的弱点。

背景与挑战

背景概述

CNTP数据集由上海交通大学、清华大学、奇虎360和南洋理工大学的研究团队于2025年创建，旨在解决中文毒性内容检测中的多模态扰动挑战。该数据集基于对中文语言特性的深入研究，提出了3种扰动策略和8种具体方法，涵盖了字形、语音和语义三个层面的扰动。作为首个系统性研究中文扰动毒性内容的数据集，CNTP填补了现有毒性检测研究在中文多模态特性方面的空白，为提升大型语言模型在中文毒性内容识别中的鲁棒性提供了重要基准。

当前挑战

CNTP数据集面临的核心挑战体现在两个方面：在领域问题层面，中文多模态特性（如同音字、拆字、表情符号替换等）导致毒性内容难以被现有模型准确识别，尤其是当恶意内容经过精心设计的扰动后；在构建过程中，确保扰动后的文本在保持人类可读性的同时有效迷惑模型存在显著困难，需要平衡扰动率与语义一致性。此外，数据标注需要高度专业的中文语言学知识，以避免误标和漏标，这进一步增加了数据集构建的复杂度。

常用场景

经典使用场景

CNTP数据集在中文毒性内容检测领域具有广泛的应用场景，特别是在社交媒体内容审核、在线社区管理以及网络舆情监控等方面。该数据集通过引入多种扰动策略，如字形、拼音和语义扰动，为研究者提供了一个全面的测试平台，用于评估和提升语言模型在复杂中文环境下的毒性检测能力。

解决学术问题

CNTP数据集解决了中文毒性内容检测中的关键学术问题，包括如何有效识别经过扰动的毒性文本，以及如何提升语言模型在复杂语言环境下的鲁棒性。通过系统化的扰动分类和大规模数据标注，该数据集为研究者提供了丰富的实验材料，推动了毒性检测算法在中文语境下的创新与优化。

实际应用

在实际应用中，CNTP数据集被广泛应用于社交媒体平台的内容审核系统，帮助自动识别和过滤潜在的毒性内容。此外，该数据集还被用于教育机构和企业的网络安全管理，通过训练更精准的检测模型，有效减少网络暴力和不当言论的传播。

数据集最近研究