walledai/DTToxicity
收藏Hugging Face2024-10-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/walledai/DTToxicity
下载链接
链接失效反馈官方服务:
资源简介:
DTToxicity是DecodingTrust数据集的毒性子集,包含用于评估GPT模型信任度的毒性相关的文本数据和评分。
DTToxicity is the toxicity subset of the DecodingTrust data, containing text data and scores related to toxicity for evaluating the trustworthiness of GPT models.
提供机构:
walledai
原始信息汇总
数据集概述
数据集特征
- prompt:字符串类型
- severe_toxicity:浮点数类型
- toxicity:浮点数类型
- profanity:浮点数类型
- sexually_explicit:浮点数类型
- identity_attack:浮点数类型
- flirtation:浮点数类型
- threat:浮点数类型
- insult:浮点数类型
- toxic:布尔类型
数据集分割
- rtp:
- 字节数:320237
- 示例数:2396
- gpt3.5:
- 字节数:371974
- 示例数:1200
- gpt4:
- 字节数:376305
- 示例数:1200
数据集大小
- 下载大小:710709字节
- 数据集总大小:1068516字节
配置文件
- default:
- rtp:路径格式为
data/rtp-* - gpt3.5:路径格式为
data/gpt3.5-* - gpt4:路径格式为
data/gpt4-*
- rtp:路径格式为
搜集汇总
数据集介绍

构建方式
DTToxicity数据集源自DecodingTrust项目,该数据集专注于评估GPT模型在处理文本时的可信度。其构建过程涉及从多个来源收集文本数据,并通过一系列算法对文本进行分类,包括严重毒性、毒性、亵渎、性暗示、身份攻击、调情、威胁、侮辱等指标。这些指标通过浮点数表示,而是否为毒性文本则通过布尔值表示。数据集分为三个子集:rtp、gpt3.5和gpt4,分别对应不同的数据源和模型评估结果。
特点
DTToxicity数据集的显著特点在于其多维度的毒性评估指标,涵盖了从轻微到严重的多种毒性类型。此外,数据集的多样性体现在其包含了来自不同GPT模型的评估结果,使得研究者能够对比不同模型在处理毒性文本时的表现。数据集的结构化设计使得每一项数据都附带详细的毒性评分,便于进行深入的分析和模型训练。
使用方法
DTToxicity数据集适用于多种自然语言处理任务,特别是那些需要评估文本毒性的应用场景。研究者可以通过加载数据集的各个子集,利用其中的毒性评分进行模型训练和验证。此外,数据集的开放性和详细的文档支持,使得用户能够轻松地集成到现有的研究框架中。通过分析不同GPT模型在处理毒性文本时的差异,研究者可以进一步优化和改进文本过滤和内容审核系统。
背景与挑战
背景概述
DTToxicity数据集源自DecodingTrust项目,该项目由Wang Boxin等研究人员于2023年提出,旨在全面评估GPT模型中的可信度。该数据集专注于文本中的毒性内容,通过多维度的毒性指标(如严重毒性、侮辱性、威胁等)来量化文本的负面影响。DTToxicity的创建不仅为自然语言处理领域提供了新的研究资源,还为理解和控制生成模型中的有害内容提供了重要工具。
当前挑战
DTToxicity数据集在构建过程中面临多重挑战。首先,毒性内容的定义和量化是一个复杂的问题,涉及多维度的情感和行为分析。其次,数据集的标注需要高度专业化的知识和技能,以确保标注的准确性和一致性。此外,如何平衡数据集的多样性和代表性,以避免偏见和歧视,也是一项重要的挑战。这些挑战不仅影响了数据集的质量,也对后续研究提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,walledai/DTToxicity数据集的经典使用场景主要集中在文本毒性检测和情感分析。该数据集通过提供丰富的文本样本及其对应的毒性评分,使得研究者和开发者能够训练和评估模型在识别和分类有害内容方面的能力。例如,通过分析'severe_toxicity'、'toxicity'和'insult'等特征,模型可以有效区分不同程度的恶意言论,从而提升在线社区的内容审核效率和用户体验。
实际应用
在实际应用中,walledai/DTToxicity数据集被广泛用于社交媒体平台、在线论坛和内容分发系统中的自动内容审核。通过集成该数据集训练的模型,平台可以实时检测和过滤有害内容,保护用户免受恶意言论的侵害。此外,该数据集还支持企业内部的合规性检查,确保发布的内容符合行业标准和法律法规,从而提升品牌形象和用户信任度。
衍生相关工作
walledai/DTToxicity数据集的发布催生了多项相关研究和工作,特别是在文本毒性检测和情感分析领域。例如,基于该数据集的研究论文探讨了不同模型架构在毒性检测任务中的表现,提出了多种优化算法和评估指标。此外,该数据集还被用于开发开源工具和API,方便开发者快速集成毒性检测功能。这些衍生工作不仅推动了学术研究的进展,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



