ToxiGen
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ToxiGen
下载链接
链接失效反馈官方服务:
资源简介:
机器生成的大规模数据集,包含 274,186 条关于 13 个少数群体的有害和良性陈述。该数据集使用基于演示的提示框架和对抗性分类器在环解码方法,通过大量预训练语言模型 (GPT-3) 生成具有微妙毒性和良性的文本。以这种方式控制机器生成允许 TOXIGEN 比以前的人工书写文本资源更大规模地覆盖隐含的有毒文本,并且涉及更多的人口群体。 TOXIGEN 可用于对抗人工编写和机器生成的毒性。
提供机构:
OpenDataLab
创建时间:
2022-09-01
搜集汇总
数据集介绍

背景与挑战
背景概述
ToxiGen是一个由GPT-3等预训练语言模型生成的大规模数据集,包含27.4万条针对13个少数群体的有害和良性文本,专门用于检测隐含毒性和对抗机器生成的有害内容。
以上内容由遇见数据集搜集并总结生成



