five

PCR-ToxiCN

收藏
arXiv2025-07-10 更新2025-07-12 收录
下载链接:
https://huggingface.co/datasets/UTSNLPGroup/PCR-ToxiCN
下载链接
链接失效反馈
官方服务:
资源简介:
PCR-ToxiCN数据集由西悉尼大学澳大利亚人工智能研究所的研究人员创建,旨在研究汉语中利用语音伪装的攻击性语言的检测。数据集包含500个来自RedNote平台的真实用户评论,每个样本都采用四种语音伪装策略(汉字替换、字母替换、数字替换和混合替换)之一来隐藏原始术语,以确保数据集的平衡。数据集的创建过程涉及数据收集、数据标注和数据分析,旨在为评估大型语言模型在检测语音伪装攻击性语言方面的性能提供一个现实的标准。数据集的应用领域在于支持未来研究和内容审核系统的改进。

The PCR-ToxiCN dataset was developed by researchers from the Australian Artificial Intelligence Institute at Western Sydney University, targeting the study of detecting phonetically disguised offensive language in Mandarin Chinese. The dataset comprises 500 real user comments collected from the RedNote platform, where each sample adopts one of four phonetic disguise strategies—character replacement, letter replacement, digit replacement, and mixed replacement—to obfuscate the original terms, thus ensuring the dataset's balance. The dataset creation process involves data collection, annotation and analysis, aiming to provide a realistic benchmark for evaluating the performance of large language models (LLMs) in detecting phonetically disguised offensive language. This dataset can be applied to support future research and the improvement of content moderation systems.
提供机构:
西悉尼大学澳大利亚人工智能研究所
创建时间:
2025-07-10
原始信息汇总

PCR-ToxiCN 数据集概述

数据集简介

  • 名称: PCR-ToxiCN
  • 用途: 用于测试模型识别通过语音伪装(同音字和近音字)隐藏的冒犯性语言的能力。
  • 语言: 中文(zh)
  • 标签:
    • 毒性检测(toxicity)
    • 内容审核(content-moderation)
    • 对抗性示例(adversarial)

数据集内容

  • 样本数量: 500个
  • 字段说明:
    • text: 原始小红书评论(字符串类型)
    • offensive_label: 冒犯性标签(整数类型,1表示冒犯性,0表示非冒犯性,各250个样本)
    • strategy: 伪装策略(字符串类型,包括HR、AR、NR、MR)

伪装策略说明

策略 描述 示例
HR 汉字替换 “沸物” → “废物”
AR 字母/拼音替换 “SB” → “傻逼”
NR 数字发音替换 “4” (sì) → “死”
MR 混合替换 “4万” → “死完”

快速使用

python from datasets import load_dataset ds = load_dataset("UTSNLPGroup/PCR-ToxiCN", split="full")

相关资源

贡献者

Haotan Guo, Jianfei He, Jiayuan Ma, Hongbin Na, Zimu Wang, Haiyang Zhang, Qi Chen, Wei Wang, Zijing Shi, Tao Shen, Ling Chen

引用

bibtex @article{guo2025lost, title={Lost in Pronunciation: Detecting Chinese Offensive Language Disguised by Phonetic Cloaking Replacement}, author={Guo, Haotan and He, Jianfei and Ma, Jiayuan and Na, Hongbin and Wang, Zimu and Zhang, Haiyang and Chen, Qi and Wang, Wei and Shi, Zijing and Shen, Tao and Chen, Ling}, journal={arXiv preprint arXiv:2507.07640}, year={2025}, url={https://arxiv.org/abs/2507.07640} }

搜集汇总
数据集介绍
main_image_url
构建方式
在中文社交媒体内容审核领域,语音伪装替换(PCR)现象日益成为检测系统面临的严峻挑战。PCR-ToxiCN数据集的构建采用了严格的实证研究方法,研究团队从知名社交平台小红书(RedNote)采集了真实用户评论,摒弃了传统基于规则生成的合成数据方法。通过精心设计的四分类法(汉字替换、字母替换、数字替换和混合替换),研究人员筛选出500条包含自然发生的语音伪装样本,并确保攻击性和非攻击性样本各250条以保持平衡。三位受过专业训练的汉语母语标注者采用独立标注加共识讨论的方式,最终达到81.5%的Fleiss' kappa标注一致性,并由项目负责人进行最终质量审查。
特点
作为首个专注于中文语音伪装攻击的真实语料库,PCR-ToxiCN呈现出三大显著特征:其语料覆盖四种典型的语音伪装策略,其中汉字替换占比最高(352条),充分反映了用户规避审查的主要手段;样本均来自真实社交互动,包含大量创造性近音替换现象,如声调转换或相邻音素替换,较之完美同音替换更具检测挑战性;数据集特别关注语音相似度谱系中的模糊区域,这些在以往研究中常被忽视的复杂案例,能更准确地评估模型在实际场景中的鲁棒性。攻击性样本多用于规避平台审核,而非攻击性样本则包含语言游戏或打字错误等情形。
使用方法
该数据集主要服务于中文攻击性语言检测模型的评估与优化。研究人员可采用标准提示、思维链提示和拼音提示等策略测试模型性能,其中拼音提示法经实证能显著提升检测准确率。评估时应重点关注模型在四类替换策略上的差异化表现,特别是对汉字替换样本的识别能力。使用过程中需注意:模型在精确度较高但召回率普遍偏低的现象,建议结合错误分析探究FN案例;思维链提示虽增强推理可解释性,但可能降低实际检测效果;对于混合替换等复杂案例,需要模型具备跨模态推理能力。数据集配套提供详细的标注指南和示例,确保研究可复现性。
背景与挑战
背景概述
PCR-ToxiCN数据集由悉尼大学、香港科技大学、悉尼科技大学和西交利物浦大学的研究团队于2025年创建,旨在解决中文网络内容审核中的语音伪装攻击问题。该数据集聚焦于同音/近音替换(PCR)现象,收录了从RedNote平台采集的500条真实用户评论,涵盖汉字替换(HR)、字母替换(AR)、数字替换(NR)和混合替换(MR)四类语音伪装策略。作为首个针对中文复杂近音攻击的实证研究基准,其四维分类体系为脆弱性分析提供了诊断工具,揭示了现有大语言模型在模糊音系推理上的重大缺陷,推动了鲁棒性毒性检测技术的发展。
当前挑战
该数据集面临双重挑战:在领域问题上,需解决中文同音攻击的语义模糊性——近音替换(如声调偏移或相邻音素替换)要求模型具备跨模态联想能力,而现有检测器F1值仅0.672;在构建过程中,需克服真实用户创意的捕获难题,包括方言音变(如n/l混淆)、数字双关(如'4'谐音'死')以及混合策略的动态解码。标注阶段81.5%的标注者间一致性表明,区分恶意伪装与无害语言游戏需要精细的语音学知识和文化语境理解。
常用场景
经典使用场景
PCR-ToxiCN数据集在自然语言处理领域中被广泛应用于中文毒性语言检测的研究。特别是在处理语音伪装替换(PCR)的毒性语言时,该数据集提供了丰富的真实用户生成内容,帮助研究者评估和改进大型语言模型(LLM)在复杂语境下的表现。通过该数据集,研究者能够深入分析模型在面对汉字替换、字母替换、数字替换和混合替换等不同策略时的性能差异,从而揭示现有模型的局限性。
实际应用
在实际应用中,PCR-ToxiCN数据集为社交媒体平台的内容审核系统提供了重要支持。通过分析数据集中的真实案例,平台可以优化其毒性语言检测算法,有效识别用户通过语音伪装发布的违规内容。例如,平台可以利用该数据集训练模型,提高对汉字替换、数字替换等复杂策略的识别能力,从而减少漏检和误检,维护健康的网络环境。
衍生相关工作
PCR-ToxiCN数据集衍生了一系列相关研究,尤其是在中文毒性语言检测和语音伪装分析领域。例如,基于该数据集的研究重新评估了拼音提示策略的有效性,纠正了先前研究中对其无效的误解。此外,该数据集还启发了针对混合替换(MR)等复杂策略的专项研究,推动了跨模态推理技术的发展。这些工作不仅扩展了数据集的学术价值,也为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作