500-entry-erp-detection-database

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/Oily-femboy-cock/500-entry-erp-detection-database

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含近500个条目的NSFW ERP过滤列表，专为检测AI生成文本中的特定ERP（Erotic Roleplay）内容而设计。数据集包括近400个ERP短语和100个SFW RP短语，适用于AI审查工具、Diddyscord反ERP机器人等场景。

创建时间：

2025-06-02

原始信息汇总

数据集概述

基本信息

数据集名称: (almost)500-Entry NSFW ERP Filter List
许可证: MIT
语言: 英语 (en)
相关数据集: your-username/nsfw-erp-filter-list

数据集内容

ERP短语: 近400条，包含情色角色扮演相关的短语，例如：
- "nuzzles into your chest"
- "tail wagging softly :3"
- "Grins mischievously, tugging your leash playfully"
SFW RP短语: 100条，用于减少误报，例如：
- "gives you a warm hug"
- "lets go on an adventure"
- "Looks at the clouds and says, That one looks like a whale! :3"

设计目的

专为检测AI生成文本中的情色角色扮演（ERP）内容设计。
适用于Diddyscord机器人、AI流水线和后处理过滤器。

适用场景

简单的AI审核工具。
Diddyscord反ERP机器人。
离线/基础AI模型（如GPT-2、LLaMA）的无内置安全功能场景。

注意事项

该过滤器仅针对一般ERP检测，不涵盖暴力、自残、仇恨言论或非ERP的NSFW类别。
禁止用于不良活动。

搜集汇总

数据集介绍

构建方式

该数据集聚焦于人工智能生成文本中情色角色扮演（ERP）内容的检测需求，采用人工筛选与分类的方式构建。研究者从实际对话场景中提取了近400条典型ERP短语，涵盖从隐晦暗示到直白表述的多种表达形式，同时精心收集100条安全角色扮演（SFW RP）短语作为负样本。数据标注过程特别注重识别包含兽迷文化特征的语言模式和特殊表情符号，并通过迭代更新优化了词条的唯一性和代表性。

特点

作为专门针对ERP内容检测的语料库，该数据集呈现出鲜明的领域特异性。其核心价值在于精准捕捉大型语言模型可能生成的各种情色暗示表达，特别是那些融合了兽迷文化元素的特殊句式。数据集采用平衡设计，在阳性样本中系统收录了从肢体动作描写到拟声词运用的多维特征，同时通过精心挑选的阴性样本有效降低误判风险。所有词条均经过去重处理，并针对实际应用场景中的漏洞进行了针对性补充。

使用方法

该数据集主要服务于人工智能内容安全领域，尤其适合集成至轻量级审核系统。使用者可通过简单的字符串匹配算法将其部署于Discord机器人等即时通讯平台，或作为后处理过滤器接入GPT-2等开源模型的输出管道。实际应用时建议结合正则表达式实现高效模式匹配，同时需要注意该数据集专攻ERP检测的特性，对于暴力、自残等其他NSFW内容需配合专项过滤器使用。数据集采用MIT许可，允许自由修改和再分发，但需遵循原始用途限制条款。

背景与挑战

背景概述

500-entry-erp-detection-database数据集诞生于人工智能内容安全审查需求日益增长的背景下，由Diddyscord技术团队于2023年构建完成。该数据库聚焦于解决生成式AI在角色扮演对话中产生的色情内容识别难题，特别针对GPT-2、LLaMA等开源大模型可能输出的情色角色扮演（ERP）文本。作为首个专门针对ERP语义特征的过滤词库，其创新性地融合了400条典型ERP短语和100条安全角色扮演样本，通过对比学习机制提升分类精度，为AI内容安全领域提供了细粒度文本过滤的新范式。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，情色角色扮演文本常采用隐喻表达和特殊符号（如:3、>///<等），传统关键词匹配难以区分暧昧语境与健康互动；数据构建过程中需平衡召回率与误判率，既要覆盖'轻柔蹭着你胸口'等模糊表达，又要避免将'给你温暖拥抱'等正常社交短语误判为违规内容。此外，网络俚语的快速演变和亚文化圈层特有的语言编码体系，使得数据维护面临持续更新的压力。

常用场景

经典使用场景

在人工智能生成文本的审核领域，500-entry-erp-detection-database数据集为检测色情角色扮演（ERP）内容提供了专业支持。该数据集通过近400条ERP短语和100条安全角色扮演（SFW RP）短语的对比，帮助识别AI生成文本中的暗示性和露骨内容，尤其适用于缺乏内置安全机制的离线或初级AI模型。

衍生相关工作

基于该数据集，研究者们开发了多种改进型内容过滤系统。其中最具代表性的是针对特定领域（如兽迷文化）的细粒度分类器，以及结合上下文理解的智能过滤算法。这些工作不仅扩展了原始数据集的应用范围，还推动了AI安全领域的技术创新。

数据集最近研究