DuongTrongChi/toxic-chat-prompt
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DuongTrongChi/toxic-chat-prompt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含对话ID、提示、模型输出、人工注释、毒性、越狱和OpenAI审核等特征。数据集分为训练集,包含5654个例子,大小为9000936.055287752字节。
该数据集包含对话ID、提示、模型输出、人工注释、毒性、越狱和OpenAI审核等特征。数据集分为训练集,包含5654个例子,大小为9000936.055287752字节。
提供机构:
DuongTrongChi
原始信息汇总
数据集概述
数据集特征
- conv_id: 数据类型为字符串。
- prompt: 数据类型为字符串。
- model_output: 数据类型为字符串。
- human_annotation: 数据类型为布尔值。
- toxicity: 数据类型为整数(int64)。
- jailbreaking: 数据类型为整数(int64)。
- openai_moderation: 数据类型为字符串。
数据集划分
- train:
- 数据大小: 9000936.055287752 字节
- 示例数量: 5654
数据集大小
- 下载大小: 5138518 字节
- 数据集总大小: 9000936.055287752 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
搜集汇总
数据集介绍

构建方式
该数据集名为toxic-chat-prompt,旨在服务于对话安全性与内容审核领域的研究。其构建过程基于人工与自动化相结合的标注策略:首先收集包含对话上下文(prompt)及模型输出(model_output)的交互样本,随后由人类标注者(human_annotation)对每条样本进行二元毒性判断,并辅以细粒度的毒性程度评分(toxicity)与越狱攻击倾向评分(jailbreaking)。此外,还引入了OpenAI的内容审核接口(openai_moderation)作为外部验证标签,从而形成多维度、多层次的安全评估基准。数据集共包含5654条训练样本,以JSON格式存储于单一训练分割中。
使用方法
该数据集的使用方式灵活多样,适用于训练与评估对话安全模型。研究者可直接利用human_annotation字段进行二分类任务(有毒/无毒),或采用toxicity与jailbreaking的连续值进行回归预测。openai_moderation字段可作为外部基准,用于对比不同审核系统的性能。数据以HuggingFace Datasets库的标准格式提供,通过load_dataset('DuongTrongChi/toxic-chat-prompt')即可加载。建议在划分训练集时保持对话上下文的完整性,避免同一conv_id的样本被分割至不同子集,以保障评估的公平性。
背景与挑战
背景概述
在大语言模型快速普及的当下,模型输出的安全性与伦理性成为学术界与工业界共同关注的焦点。DuongTrongChi等人于近期构建了toxic-chat-prompt数据集,旨在系统性地捕捉对话中用户输入的毒性倾向及潜在的越狱攻击行为。该数据集由5654条训练样本组成,每条样本包含对话标识、用户提示、模型输出、人工标注、毒性评分、越狱标签及OpenAI审核结果等字段,为多维度评估模型安全防线提供了结构化支撑。研究团队通过人工标注与自动化检测相结合的方式,聚焦于识别诱导模型生成有害内容的恶意提示,推动了对话安全领域从单一毒性检测向越狱攻击防御的纵深发展。该数据集的出现,为构建更鲁棒的对话系统安全评估基准奠定了重要基础。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:对话安全不仅需要识别显性毒性内容,更需应对隐蔽的越狱攻击与上下文诱导,当前模型对多轮对话中渐进式恶意引导的防御能力仍显不足。其次,数据集构建过程中遭遇了多重困难:人工标注的毒性阈值难以统一,不同标注者对“越狱”行为的判断存在主观偏差;自动化审核工具(如OpenAI Moderation)对新型攻击模式的漏报率较高,导致标注一致性面临考验。此外,数据集中仅包含英文提示,缺乏多语言覆盖,限制了其在全球化部署场景下的适用性。最后,随着对抗性提示技术的快速迭代,数据集的时效性维护成为持续挑战,需要定期更新以涵盖最新攻击手法。
常用场景
经典使用场景
在对话式人工智能的安全性研究中,toxic-chat-prompt数据集因其对用户提示、模型响应及人工毒性标注的精细整合,成为评估与训练大语言模型(LLM)对抗恶意输入能力的基准资源。研究者可基于该数据集的对话唯一标识符(conv_id)与毒性等级(toxicity)字段,系统性地分析模型在面对越狱攻击(jailbreaking)时的脆弱性,从而推动鲁棒性更强的安全对齐策略开发。
解决学术问题
该数据集针对大语言模型在开放域对话中易受对抗性提示操控的学术难题,提供了包含人工标注与OpenAI审核标签的多维评估框架。通过量化模型输出毒性(toxicity)与越狱攻击成功率(jailbreaking)之间的关联,它解决了现有安全基准缺乏真实对话语境与细粒度标注的局限性,为构建可解释的毒性检测机制和防御算法奠定了数据基础,显著推进了负责任AI领域的实证研究。
实际应用
在实际部署中,toxic-chat-prompt被用于企业级聊天机器人的安全审计流程,通过注入该数据集的恶意提示来压力测试模型的内容过滤系统。其human_annotation字段辅助开发团队校准自动化审核阈值,而openai_moderation标签则提供了与行业标准对齐的参考基准,有效降低了生成仇恨言论、诱导非法行为等风险,保障了社交平台与客服系统的人机交互安全。
数据集最近研究
最新研究方向
在大型语言模型安全性与对齐研究的前沿,toxic-chat-prompt数据集聚焦于对话中毒性内容与越狱攻击的检测与防御。该数据集通过人工标注与OpenAI审核双重机制,为模型输出的有害性评估提供了多维度基准。近期研究热点围绕对抗性提示的鲁棒性提升,尤其在红队测试中模拟真实攻击场景,以揭示模型在复杂语境下的脆弱性。这一方向与全球对AI伦理治理的迫切需求紧密相连,推动了可解释性安全机制与动态过滤策略的发展,其意义在于为构建可信赖的对话系统奠定数据基础,并促进跨平台安全标准的统一。
以上内容由遇见数据集搜集并总结生成



