five

CNTP

收藏
arXiv2025-05-30 更新2025-06-03 收录
下载链接:
https://github.com/thomasyyyoung/ToxiBenchCN
下载链接
链接失效反馈
官方服务:
资源简介:
CNTP数据集是一个大规模的中文毒性内容数据集,包含约2,500个针对每种方法的扰动毒性中文内容。数据集基于对中文语言多模态特性的深入理解,旨在评估大型语言模型(LLMs)在检测扰动毒性中文内容方面的能力。数据集的建设遵循了三个关键原则:语言多样性、人类可读性和可理解性验证,以及通过平衡扰动率来控制扰动百分比。数据集的创建过程涉及从基础数据集中采样毒性内容,进行毒性实体提取,并将扰动嵌入到内容中。该数据集为研究LLMs在中文毒性内容检测中的性能提供了宝贵的资源。

The CNTP dataset is a large-scale Chinese toxic content dataset, containing approximately 2,500 perturbed toxic Chinese texts for each perturbation method. Built upon an in-depth understanding of the multimodal characteristics of the Chinese language, this dataset aims to evaluate the performance of Large Language Models (LLMs) in detecting perturbed toxic Chinese content. The construction of the dataset adheres to three core principles: linguistic diversity, human readability and comprehensibility validation, and controlling the perturbation percentage by balancing perturbation rates. The dataset creation process involves sampling toxic content from a base dataset, extracting toxic entities, and embedding perturbations into the content. This dataset serves as a valuable resource for studying the performance of LLMs in detecting Chinese toxic content.
提供机构:
上海交通大学, 清华大学, 奇虎360, 南洋理工大学
创建时间:
2025-05-30
原始信息汇总

ToxiBenchCN 数据集概述

基本信息

  • 数据集名称:ToxiBenchCN
  • 相关论文:Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings
  • 会议信息:ACL-2025 Findings

数据集状态

  • 当前状态:数据集和代码即将发布(coming soon)

研究背景

  • 研究领域:中文有害内容检测
  • 研究重点:多模态挑战(文本+其他模态)在中文有害内容检测中的应用

其他信息

  • 官方仓库:https://github.com/thomasyyyoung/ToxiBenchCN
搜集汇总
数据集介绍
main_image_url
构建方式
CNTP数据集的构建基于对中文毒性内容的多模态扰动分类体系,首先从Toxi_CN基础数据集中筛选出具有代表性的毒性句子,随后通过GPT-4o-mini模型提取毒性实体,并应用8种扰动方法(包括字形、拼音和语义层面的扰动)生成多样化样本。为确保数据质量,采用人工验证机制对扰动后的句子进行可读性和语义一致性评估,最终形成包含20,087条扰动文本的高质量数据集。
使用方法
CNTP数据集适用于评估大语言模型对扰动中文毒性内容的检测能力。研究者可通过设定标准提示模板(如中英文分类指令)测试模型性能,重点关注检测率(Detection Rate)和误判率(Error Rate)。此外,数据集支持上下文学习(ICL)和微调(SFT)等增强策略的验证,例如在提示中添加少量扰动样本或对模型进行小规模微调,但需注意可能引发的过度矫正现象(如非毒性内容误判)。数据集的层级化扰动标签便于针对性分析模型在不同模态扰动下的弱点。
背景与挑战
背景概述
CNTP数据集由上海交通大学、清华大学、奇虎360和南洋理工大学的研究团队于2025年创建,旨在解决中文毒性内容检测中的多模态扰动挑战。该数据集基于对中文语言特性的深入研究,提出了3种扰动策略和8种具体方法,涵盖了字形、语音和语义三个层面的扰动。作为首个系统性研究中文扰动毒性内容的数据集,CNTP填补了现有毒性检测研究在中文多模态特性方面的空白,为提升大型语言模型在中文毒性内容识别中的鲁棒性提供了重要基准。
当前挑战
CNTP数据集面临的核心挑战体现在两个方面:在领域问题层面,中文多模态特性(如同音字、拆字、表情符号替换等)导致毒性内容难以被现有模型准确识别,尤其是当恶意内容经过精心设计的扰动后;在构建过程中,确保扰动后的文本在保持人类可读性的同时有效迷惑模型存在显著困难,需要平衡扰动率与语义一致性。此外,数据标注需要高度专业的中文语言学知识,以避免误标和漏标,这进一步增加了数据集构建的复杂度。
常用场景
经典使用场景
CNTP数据集在中文毒性内容检测领域具有广泛的应用场景,特别是在社交媒体内容审核、在线社区管理以及网络舆情监控等方面。该数据集通过引入多种扰动策略,如字形、拼音和语义扰动,为研究者提供了一个全面的测试平台,用于评估和提升语言模型在复杂中文环境下的毒性检测能力。
解决学术问题
CNTP数据集解决了中文毒性内容检测中的关键学术问题,包括如何有效识别经过扰动的毒性文本,以及如何提升语言模型在复杂语言环境下的鲁棒性。通过系统化的扰动分类和大规模数据标注,该数据集为研究者提供了丰富的实验材料,推动了毒性检测算法在中文语境下的创新与优化。
实际应用
在实际应用中,CNTP数据集被广泛应用于社交媒体平台的内容审核系统,帮助自动识别和过滤潜在的毒性内容。此外,该数据集还被用于教育机构和企业的网络安全管理,通过训练更精准的检测模型,有效减少网络暴力和不当言论的传播。
数据集最近研究
最新研究方向
近年来,CNTP数据集在中文毒性内容检测领域引起了广泛关注,特别是在多模态扰动毒性文本识别方面。该数据集通过系统化的分类方法,涵盖了字形、语音和语义三个维度的八种扰动策略,为研究中文毒性内容的复杂性和多样性提供了重要资源。前沿研究主要集中在利用大语言模型(LLMs)检测扰动后的毒性内容,并探索上下文学习(ICL)和监督微调(SFT)等低成本增强策略。热点事件包括LLMs在检测扰动毒性内容时的表现差异及其潜在的过校正问题。这一研究不仅推动了中文毒性检测技术的发展,还为多语言环境下的AI安全与伦理问题提供了新的视角。
相关研究论文
  • 1
    Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings上海交通大学, 清华大学, 奇虎360, 南洋理工大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作