ToxicityPrompts/RealToxicityPrompts|毒性评估数据集|语言模型数据集

hugging_face2024-05-08 更新2024-06-12 收录

毒性评估

语言模型

下载链接：

https://hf-mirror.com/datasets/ToxicityPrompts/RealToxicityPrompts

下载链接

链接失效反馈

资源简介：

Real Toxicity Prompts数据集包含100k个从网络上提取的句子片段，旨在帮助研究人员进一步解决神经网络模型中的毒性退化问题。每个实例包括提示及其元数据，使用了Perspective API生成毒性评分。数据集基于OPEN-WEBTEXT CORPUS创建，通过从Reddit的URL中提取的英文网页文本，并按照毒性范围进行分层采样。数据集的语言为英文，许可证为Apache 2.0。

提供机构：

ToxicityPrompts

原始信息汇总

数据集概述

数据集名称

名称：Real Toxicity Prompts

数据集基本信息

语言：英语
许可证：Apache-2.0
多语言性：单语种
大小：100K<n<1M
数据来源：原始数据
任务类别：文本生成
标签：毒性、不适用于所有观众

数据集描述

摘要：RealToxicityPrompts是一个包含10万句子片段的数据集，用于帮助研究人员进一步解决模型中的神经毒性退化风险。
语言：英语

数据集结构

数据实例：每个实例包含一个提示及其元数据，包括文件名、起始和结束位置、挑战性标志、提示文本及其毒性评分（如亵渎、性暗示、身份攻击等），以及继续文本及其相应的毒性评分。

数据集创建

精选理由：数据集从OPEN-WEBTEXT CORPUS中选取句子，使用Perspective API提取毒性评分，以获得不同毒性水平的提示。
许可证信息：数据集的图像元数据根据Apache许可证授权。

引用信息

bibtex @article{gehman2020realtoxicityprompts, title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models}, author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A}, journal={arXiv preprint arXiv:2009.11462}, year={2020} }

AI搜集汇总

数据集介绍

构建方式

RealToxicityPrompts数据集的构建基于对OPEN-WEBTEXT CORPUS的深入挖掘，该数据集的构建者利用Perspective API对毒性进行评分，并根据毒性分数将句子分为不同的范围，最终筛选出10万个句子。这些句子被进一步分割为提示和延续部分，以便评估语言模型在生成文本时的毒性退化风险。

特点

该数据集的特点在于其专注于文本生成的毒性评估，包含了细粒度的毒性标签，如亵渎、性暗示、身份攻击、威胁和侮辱等。数据集的构建旨在提供一个多样化的毒性文本样本，以帮助研究人员识别和缓解语言模型中的毒性退化现象。

使用方法

用户可以通过HuggingFace的库来加载RealToxicityPrompts数据集，并利用其提供的元数据和毒性分数进行研究和模型训练。数据集的每个实例都包含一个提示及其元数据，用户可以依据这些信息进行毒性分析、模型评估和文本生成等任务。

背景与挑战

背景概述

Real Toxicity Prompts数据集，创建于2020年，由Samuel Gehman等研究人员构建，旨在评估神经语言模型中潜在的毒性退化风险。该数据集来源于OPEN-WEBTEXT CORPUS，包含100K个英文句子片段，通过Perspective API进行毒性评分，并分为四等宽的毒性范围，以提供多样化的毒性示例。数据集的构建对于研究语言模型在处理毒性内容时的性能和偏差具有重要意义，对自然语言处理领域产生了显著影响。

当前挑战

数据集构建过程中的挑战主要包括：确保毒性评分的准确性和一致性，处理来自网络文本的噪声和多样性，以及平衡数据集的毒性级别以覆盖广泛的毒性表现。此外，该数据集在应用中的挑战包括如何有效利用这些毒性提示来评估和改进语言模型的鲁棒性，以及如何在保持数据集实用性的同时，避免潜在的滥用和不当影响。

常用场景

经典使用场景

在文本生成模型研究领域，RealToxicityPrompts数据集被广泛用于评估和检测模型在生成文本时可能出现的毒性退化现象。该数据集通过提供具有不同毒性级别的句子片段，使得研究者能够对模型进行细致的毒性评估，确保生成文本的安全性和适宜性。

解决学术问题

该数据集解决了模型生成文本中潜在毒性内容的问题，有助于学术界深入理解语言模型在处理具有争议性或敏感主题时的行为。通过使用RealToxicityPrompts，研究者能够更准确地识别和缓解模型生成中的毒性风险，从而提高模型在多样化和复杂环境中的应用性。

衍生相关工作

基于RealToxicityPrompts数据集，学术界衍生出了一系列相关研究工作，包括毒性检测模型的开发、毒性度量标准的制定以及模型对抗毒性攻击的鲁棒性研究。这些工作进一步推动了自然语言处理领域在毒性内容理解和处理方面的进展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话，其中包含两个字段：用户发言和助手回应，均为字符串类型。训练集大小为38646852字节，共有44096条对话记录。

huggingface 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心（CSLT）发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下，由王东完成的。清华大学计算机科学系智能与系统，原名“TCMSD”，意思是“清华连续普通话语音数据库”，时隔13年出版，由王东博士发起，并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此，该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

NIST Thermochemical Database

NIST Thermochemical Database（NIST热化学数据库）是一个包含大量热化学数据的数据集，涵盖了各种化学物质的热力学性质，如焓、熵、自由能等。该数据库由美国国家标准与技术研究院（NIST）维护，旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。