Ahren09/RealToxicityPrompts_test
收藏Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ahren09/RealToxicityPrompts_test
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: filename
dtype: string
- name: begin
dtype: int64
- name: end
dtype: int64
- name: challenging
dtype: bool
- name: prompt
dtype: string
- name: continuation
dtype: string
- name: prompt_metrics
struct:
- name: flirtation
dtype: float64
- name: identity_attack
dtype: float64
- name: insult
dtype: float64
- name: profanity
dtype: float64
- name: severe_toxicity
dtype: float64
- name: sexually_explicit
dtype: float64
- name: threat
dtype: float64
- name: toxicity
dtype: float64
- name: continuation_metrics
struct:
- name: flirtation
dtype: float64
- name: identity_attack
dtype: float64
- name: insult
dtype: float64
- name: profanity
dtype: float64
- name: severe_toxicity
dtype: float64
- name: sexually_explicit
dtype: float64
- name: threat
dtype: float64
- name: toxicity
dtype: float64
splits:
- name: train
num_bytes: 5004962.387039681
num_examples: 14916
download_size: 4565657
dataset_size: 5004962.387039681
---
# Dataset Card for "RealToxicityPrompts_test"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段名:filename(文件名),数据类型:string(字符串)
- 字段名:begin(起始位置),数据类型:int64(64位整数)
- 字段名:end(结束位置),数据类型:int64(64位整数)
- 字段名:challenging(高挑战性),数据类型:bool(布尔值)
- 字段名:prompt(提示语),数据类型:string(字符串)
- 字段名:continuation(续文),数据类型:string(字符串)
- 字段名:prompt_metrics(提示语指标),结构体:
- 字段名:flirtation(调情倾向),数据类型:float64(64位浮点数)
- 字段名:identity_attack(身份攻击),数据类型:float64(64位浮点数)
- 字段名:insult(侮辱),数据类型:float64(64位浮点数)
- 字段名:profanity(粗鄙用语),数据类型:float64(64位浮点数)
- 字段名:severe_toxicity(严重毒性),数据类型:float64(64位浮点数)
- 字段名:sexually_explicit(色情露骨内容),数据类型:float64(64位浮点数)
- 字段名:threat(威胁),数据类型:float64(64位浮点数)
- 字段名:toxicity(毒性),数据类型:float64(64位浮点数)
- 字段名:continuation_metrics(续文指标),结构体:
- 字段名:flirtation(调情倾向),数据类型:float64(64位浮点数)
- 字段名:identity_attack(身份攻击),数据类型:float64(64位浮点数)
- 字段名:insult(侮辱),数据类型:float64(64位浮点数)
- 字段名:profanity(粗鄙用语),数据类型:float64(64位浮点数)
- 字段名:severe_toxicity(严重毒性),数据类型:float64(64位浮点数)
- 字段名:sexually_explicit(色情露骨内容),数据类型:float64(64位浮点数)
- 字段名:threat(威胁),数据类型:float64(64位浮点数)
- 字段名:toxicity(毒性),数据类型:float64(64位浮点数)
数据划分:
- 划分名称:train(训练集),字节数:5004962.387039681,样本数量:14916
下载大小:4565657 字节
数据集总大小:5004962.387039681 字节
# "RealToxicityPrompts_test" 数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Ahren09
原始信息汇总
数据集概述
数据集特征
- filename:文件名,数据类型为字符串。
- begin:开始时间,数据类型为整数。
- end:结束时间,数据类型为整数。
- challenging:挑战性,数据类型为布尔值。
- prompt:提示文本,数据类型为字符串。
- continuation:延续文本,数据类型为字符串。
- prompt_metrics:提示文本的评估指标,结构化数据类型,包含以下子特征:
- flirtation:调情程度,数据类型为浮点数。
- identity_attack:身份攻击程度,数据类型为浮点数。
- insult:侮辱程度,数据类型为浮点数。
- profanity:亵渎程度,数据类型为浮点数。
- severe_toxicity:严重毒性程度,数据类型为浮点数。
- sexually_explicit:性暗示程度,数据类型为浮点数。
- threat:威胁程度,数据类型为浮点数。
- toxicity:毒性程度,数据类型为浮点数。
- continuation_metrics:延续文本的评估指标,结构化数据类型,包含与
prompt_metrics相同的子特征。
数据集分割
- train:训练集,包含14916个样本,总大小为5004962.387039681字节。
数据集大小
- 下载大小:4565657字节。
- 数据集总大小:5004962.387039681字节。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,评估模型生成内容的安全性至关重要。RealToxicityPrompts_test数据集通过系统化方法构建,其核心是从互联网文本中提取真实存在的提示语句,并辅以人工标注的挑战性标记。每个数据样本不仅包含原始提示及其续写文本,还整合了由Perspective API计算的多维度毒性度量分数,涵盖骚扰、身份攻击、侮辱、污言秽语、严重毒性、性暗示内容、威胁及整体毒性等八个层面,从而为研究提供了结构化的毒性评估基准。
特点
该数据集的显著特征在于其多维度的毒性量化体系与真实场景的紧密结合。每个提示与续写文本均配备了细粒度的毒性度量分数,允许研究者从不同角度剖析文本的有害内容。数据集特别标注了具有挑战性的样本,这些样本往往在毒性边界上较为模糊,有助于深入探究模型在边缘情况下的行为。其结构化的特征设计支持对毒性特征的交叉分析,为理解语言模型的安全风险提供了丰富的实证基础。
使用方法
该数据集主要应用于语言模型的安全性评估与对齐研究。研究人员可加载数据集后,利用其提供的毒性度量分数,定量分析不同模型在相同提示下生成内容的毒性水平差异。通过筛选具有挑战性的样本,可以专门测试模型在模棱两可情境下的抗毒性能力。此外,该数据集亦可用于训练毒性检测分类器或作为基准,评估去毒性干预措施的有效性,推动构建更安全可靠的语言生成系统。
背景与挑战
背景概述
RealToxicityPrompts_test数据集源自2020年由Gehman等人提出的研究,旨在评估语言模型生成内容中的毒性风险。该数据集由艾伦人工智能研究所等机构构建,核心研究问题聚焦于揭示大规模预训练语言模型在开放生成任务中可能产生的有害、偏见或攻击性内容。通过对模型生成文本进行多维度毒性度量,该数据集为自然语言处理领域的安全与伦理研究提供了关键基准,推动了模型安全评估与对齐技术的发展。
当前挑战
该数据集致力于解决语言模型生成内容毒性检测的挑战,包括如何准确量化文本中的多种毒性维度,如侮辱、威胁和身份攻击等。在构建过程中,研究者面临数据标注的一致性与主观性难题,需平衡不同文化背景下的毒性判断标准。此外,从海量网络文本中筛选具有代表性的提示词,并确保其覆盖多样化的社会语境,亦是数据集构建中的核心挑战。
常用场景
经典使用场景
在自然语言处理领域,RealToxicityPrompts_test数据集为评估语言模型的毒性生成风险提供了关键基准。该数据集通过精心设计的提示词及其续写文本,结合多维度的毒性度量指标,使研究者能够系统地测试模型在生成内容时是否倾向于产生有害或冒犯性语言。这一场景常用于模型安全性的对比分析,帮助识别和缓解生成式人工智能中的潜在伦理缺陷。
解决学术问题
该数据集直接应对了人工智能伦理研究中的核心挑战,即如何量化并控制语言模型的有害输出。通过提供带有详细毒性标注的文本对,它解决了模型偏见检测、安全对齐技术评估以及负责任人工智能开发中的度量标准化问题。其意义在于推动了可解释性安全框架的发展,为构建更可靠、更符合社会价值观的生成模型奠定了实证基础。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,例如基于提示工程的毒性缓解策略、对抗性测试框架的构建以及多模态毒性检测模型的开发。这些工作不仅深化了对语言模型安全漏洞的理解,还催生了如Detoxify、Perspective API等开源工具与商业服务,持续推动着人工智能安全领域的标准化进程与技术创新。
以上内容由遇见数据集搜集并总结生成



