five

DynEscape

收藏
Hugging Face2025-04-27 更新2025-04-28 收录
下载链接:
https://huggingface.co/datasets/kkk3lll/DynEscape
下载链接
链接失效反馈
官方服务:
资源简介:
Dynamic-Escape是一个基于Jigsaw数据集的扰动有毒文本数据集,包含9种不同类型的扰动:插入、重复、掩码词、同形词替换、交换、移除、缩写/俚语、干扰词和干扰句子。

Dynamic-Escape is a perturbed toxic text dataset based on the Jigsaw dataset, which includes nine distinct types of perturbations: insertion, repetition, masked word replacement, homograph substitution, swapping, deletion, abbreviation/slang, distraction word insertion, and distraction sentence insertion.
创建时间:
2025-04-24
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Dynamic-Escape
  • 任务类别: 文本分类
  • 语言: 英语 (en)

数据集描述

  • 来源: 基于Jigsaw数据集的扰动有毒文本数据集
  • 管理方式: 按扰动类型分类

扰动类型

  1. 插入 (insert)
  2. 重复 (repeat)
  3. 掩码词 (maskword)
  4. 同形异义词 (homoglyph)
  5. 交换 (swap)
  6. 移除 (remove)
  7. 缩写/俚语 (abbrs./slangs)
  8. 干扰词 (distract words)
  9. 干扰句子 (distract sentences)
搜集汇总
数据集介绍
main_image_url
构建方式
DynEscape数据集基于Jigsaw数据集构建,专注于文本分类任务中的毒性内容识别。通过系统性地引入九种不同类型的文本扰动,该数据集模拟了现实场景中可能出现的多样化文本变异形式。构建过程中,研究团队采用人工与算法相结合的方式,确保每种扰动类型(如插入、重复、掩码词等)都保持语言学和语义学的合理性,为研究毒性文本的鲁棒性检测提供了标准化的评估基准。
特点
该数据集的核心价值在于其全面覆盖了九种文本扰动类型,包括字符替换、词序调换、缩写俚语等复杂变异模式。每种扰动类型都经过严格的语言学验证,既保留了原始文本的语义连贯性,又真实反映了网络环境中毒性内容的动态演变特征。数据集以英语为主要语言,其多维度扰动设计特别适合用于测试模型对对抗性文本的泛化能力。
使用方法
研究者可通过加载数据集后,针对不同扰动类型分别进行模型训练与测试。建议采用交叉验证策略评估模型在各类扰动下的性能波动,重点关注模型对同源扰动与跨扰动类型的适应能力。数据集支持端到端的文本分类流程,可直接应用于毒性检测、对抗样本鲁棒性等研究领域,为算法改进提供量化依据。
背景与挑战
背景概述
DynEscape数据集作为文本分类领域的重要资源,由Jigsaw团队基于其原始毒性文本数据构建而成,专注于研究动态扰动对毒性文本检测的影响。该数据集通过系统性地引入九种不同类型的文本扰动,旨在探索自然语言处理模型在对抗性环境下的鲁棒性。其核心研究问题聚焦于毒性文本检测系统在面对拼写变异、同形异义字替换、词汇插入等复杂干扰时的性能表现,为提升内容审核系统的实际应用效果提供了关键性基准。
当前挑战
该数据集主要应对毒性文本检测领域的两大核心挑战:模型在真实网络环境中遭遇的对抗性扰动鲁棒性不足,以及传统分类器对语义保留型文本变异的识别盲区。构建过程中需克服多重技术难点,包括扰动类型的语言学合理性验证、原始毒性标签在扰动后的语义一致性维护,以及平衡不同扰动类别对模型性能影响的评估维度。九类扰动机制的设计需同时兼顾语言变异的人为真实性与计算可操作性,这对数据标注规范与噪声控制提出了极高要求。
常用场景
经典使用场景
在自然语言处理领域,DynEscape数据集为研究文本毒性分类中的扰动影响提供了重要基准。该数据集通过九种不同类型的文本扰动(如插入、重复、掩码词等),模拟了现实世界中恶意用户规避内容审核系统的常见策略,成为评估模型鲁棒性的经典工具。研究者可利用其对分类器在对抗性环境下的表现进行系统性测试,特别适用于社交媒体内容审核算法的开发与优化。
衍生相关工作
基于DynEscape的扰动框架,研究者相继提出了TextShield等动态防御模型,以及RobustToxicity等增强型数据集。这些工作扩展了跨语言扰动模式分析,催生了对抗样本生成工具包ToxicPerturb,推动形成了文本安全领域的对抗-防御协同研究范式。
数据集最近研究
最新研究方向
在自然语言处理领域,毒性文本检测一直是内容安全方向的核心挑战。DynEscape数据集通过引入九种动态扰动机制,为对抗性文本分类研究提供了新的基准。当前前沿研究聚焦于扰动类型对模型鲁棒性的影响,特别是同形异义字和句子干扰这类语义保留型扰动的检测瓶颈。该数据集推动了基于对抗训练的防御算法发展,相关成果被应用于社交媒体内容审核系统的升级迭代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作