walledai/RTP

Name: walledai/RTP
Creator: walledai
Published: 2024-10-18 19:37:48
License: 暂无描述

Hugging Face2024-10-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/walledai/RTP

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估语言模型中的毒性退化，包含多个特征，如提示词（prompt）、毒性（toxicity）、亵渎（profanity）、性暗示（sexually_explicit）、调情（flirtation）、身份攻击（identity_attack）、威胁（threat）、侮辱（insult）和严重毒性（severe_toxicity）。数据集分为训练集，包含99442个样本，文件大小为13518212字节。数据集的许可证为Apache-2.0，语言为英语。

提供机构：

walledai

原始信息汇总

数据集概述

数据集信息

特征

prompt: 字符串类型
toxicity: 浮点数类型
profanity: 浮点数类型
sexually_explicit: 浮点数类型
flirtation: 浮点数类型
identity_attack: 浮点数类型
threat: 浮点数类型
insult: 浮点数类型
severe_toxicity: 浮点数类型

数据分割

train:
- 字节数: 13518212
- 样本数: 99442

数据集大小

下载大小: 12775866
数据集大小: 13518212

配置

default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估语言模型生成内容的毒性风险至关重要。RealToxicityPrompts数据集的构建源于对网络文本中潜在有害内容的系统性采集。该数据集从互联网中提取了约10万个英文句子片段，每个片段均通过Perspective API工具进行多维度毒性评分，涵盖毒性、污言秽语、性暗示、调情、身份攻击、威胁、侮辱及严重毒性等八类指标。这一构建过程确保了数据来源的真实性与标注的客观性，为研究神经语言模型的有害生成倾向提供了扎实的基础。

特点

该数据集的核心特点在于其精细的多标签毒性标注体系。每个文本片段不仅提供总体毒性分数，还分解为多个具体维度的量化值，如身份攻击、威胁等，从而支持细粒度的毒性分析。数据规模达近十万条，覆盖了多样化的网络语言表达，能够有效反映真实场景中的毒性模式。此外，数据以结构化特征存储，便于直接用于模型训练或评估，为毒性检测与生成安全研究提供了高价值的基准资源。

使用方法

研究人员可利用该数据集进行多项关键任务，主要包括语言模型的毒性生成评估与安全对齐研究。通过将数据集中的提示输入目标模型，可测量模型生成内容的毒性分布，进而分析模型退化风险。同时，这些标注数据可用于训练毒性分类器或优化模型的安全过滤机制。数据集以标准格式发布，支持通过HuggingFace平台直接加载，并兼容常见机器学习框架，方便快速集成至现有研究流程中。

背景与挑战

背景概述

在自然语言处理领域，语言模型生成内容的伦理与安全评估日益成为研究焦点。由艾伦人工智能研究所于2020年发布的RealToxicityPrompts数据集，旨在系统评估语言模型中的毒性退化现象。该数据集由Samuel Gehman等学者构建，核心研究问题聚焦于量化分析大规模预训练语言模型生成有害内容的倾向，为模型安全性与可控性研究提供了关键基准，推动了内容生成系统在伦理对齐方面的进展。

当前挑战

该数据集致力于解决语言模型生成内容中的毒性检测与缓解挑战，其核心在于如何准确识别并量化多种维度的有害语言，如侮辱、威胁与身份攻击等。在构建过程中，研究者面临从开放网络源中提取代表性文本片段并确保标注一致性的难题，需平衡数据的广泛覆盖与伦理边界，同时避免引入标注者偏见，以建立可靠且可复现的评估标准。

常用场景

经典使用场景

在自然语言处理领域，评估语言模型生成内容的毒性风险已成为一项关键研究议题。RealToxicityPrompts数据集通过提供大量从网络提取的句子片段，为研究者构建了一个标准化的测试平台，用于系统性地检测和量化语言模型在无约束生成过程中可能产生的有害内容。该数据集常被用于训练或评估毒性检测模型，帮助识别模型在各类敏感属性上的偏差表现，从而推动更安全、更负责任的人工智能系统开发。

解决学术问题

该数据集主要针对语言模型中的神经毒性退化问题，即模型在生成文本时无意中产生带有毒性、侮辱、威胁等有害内容的倾向。通过提供多维度标注的毒性指标，如侮辱、身份攻击、性暗示等，研究者能够深入分析模型在不同语境下的退化模式，从而设计更有效的缓解策略。这不仅促进了模型安全性的理论研究，也为构建公平、包容的生成模型提供了实证基础，对推动人工智能伦理治理具有重要意义。

衍生相关工作

基于RealToxicityPrompts数据集，学术界衍生了一系列经典研究工作。例如，有研究探索了通过提示工程或微调技术降低语言模型毒性输出的方法；另有工作结合该数据集开发了更细粒度的毒性评估框架，如考虑上下文敏感性的检测模型。这些成果不仅丰富了毒性检测与缓解的技术体系，还推动了如《ToxiGen》等后续数据集的创建，进一步拓展了有害内容治理的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集