five

ToxiGen

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ToxiGen
下载链接
链接失效反馈
官方服务:
资源简介:
机器生成的大规模数据集,包含 274,186 条关于 13 个少数群体的有害和良性陈述。该数据集使用基于演示的提示框架和对抗性分类器在环解码方法,通过大量预训练语言模型 (GPT-3) 生成具有微妙毒性和良性的文本。以这种方式控制机器生成允许 TOXIGEN 比以前的人工书写文本资源更大规模地覆盖隐含的有毒文本,并且涉及更多的人口群体。 TOXIGEN 可用于对抗人工编写和机器生成的毒性。
提供机构:
OpenDataLab
创建时间:
2022-09-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ToxiGen是一个由GPT-3等预训练语言模型生成的大规模数据集,包含27.4万条针对13个少数群体的有害和良性文本,专门用于检测隐含毒性和对抗机器生成的有害内容。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作