TOXIGEN
收藏arXiv2022-07-14 更新2024-06-21 收录
下载链接:
https://github.com/microsoft/ToxiGen
下载链接
链接失效反馈官方服务:
资源简介:
TOXIGEN是由微软研究院创建的一个大规模机器生成的数据集,包含274,186条关于13个少数群体(如非洲裔美国人、女性、LGBTQ+等)的毒性和良性陈述。该数据集通过使用GPT-3语言模型,采用演示基础的提示和对抗性分类器循环解码技术生成,旨在覆盖更广泛的隐含毒性文本,并比以往的人类编写资源更全面地涉及更多少数群体。TOXIGEN不仅在规模上超越了以往的数据集,而且在平衡毒性和良性陈述方面也更为出色,为改善现有毒性检测分类器的性能提供了重要资源。此外,数据集的应用领域主要集中在提高对隐含毒性语言的检测能力,帮助解决在线环境中对少数群体的偏见和歧视问题。
TOXIGEN is a large-scale machine-generated dataset developed by Microsoft Research. It contains 274,186 toxic and benign statements targeting 13 minority groups, including African Americans, women, LGBTQ+ individuals, and others. The dataset was generated using the GPT-3 language model, leveraging demonstration-based prompting and adversarial classifier cyclic decoding techniques. Its core objectives are to cover a broader spectrum of implicitly toxic texts and address more minority groups more comprehensively than prior human-written resources. TOXIGEN not only outperforms existing datasets in terms of scale, but also achieves better balance between toxic and benign statements, making it a pivotal resource for enhancing the performance of current toxicity detection classifiers. Furthermore, the primary applications of this dataset focus on improving the detection of implicitly toxic language, and aiding in resolving bias and discrimination against minority groups in online spaces.
提供机构:
微软研究院
创建时间:
2022-03-18
搜集汇总
数据集介绍

构建方式
TOXIGEN 数据集通过利用大规模预训练语言模型 GPT-3,采用基于演示的提示框架和对抗性分类器循环解码方法构建。该数据集包含 274,186 条关于 13 个少数群体的毒性和良性陈述。通过控制机器生成的方式,TOXIGEN 能够覆盖更大规模和更多人口群体的隐性毒性文本,相较于之前的人工编写文本资源,具有更高的覆盖率和多样性。
特点
TOXIGEN 数据集的主要特点是其大规模和多样性,涵盖了 13 个少数群体的毒性和良性陈述。数据集中的文本几乎全部是隐性的,即不包含明显的亵渎或侮辱性语言,这使得检测更加困难。此外,TOXIGEN 通过对抗性生成方法,生成了能够挑战现有毒性检测分类器的文本,从而提高了数据集的挑战性和实用性。
使用方法
TOXIGEN 数据集可用于微调现有的毒性分类器,以提高其在检测隐性毒性文本方面的性能。研究者可以使用该数据集训练模型,以更好地识别和分类涉及少数群体的隐性毒性言论。此外,TOXIGEN 还可用于评估和改进现有的毒性检测系统,通过提供更具挑战性的测试样本,帮助系统更好地应对复杂的在线毒性言论。
背景与挑战
背景概述
TOXIGEN,一个大规模的机器生成数据集,由麻省理工学院、华盛顿大学、微软研究院、艾伦人工智能研究所和卡内基梅隆大学的研究人员共同创建,旨在解决对抗性和隐性仇恨言论检测的问题。该数据集包含274,186条关于13个少数群体的毒性和良性陈述,通过演示提示框架和对抗性分类器循环解码方法生成。TOXIGEN的创建旨在缓解现有毒性语言检测系统对少数群体提及的过度依赖,这些系统往往错误地将包含少数群体提及的文本标记为有毒。通过控制机器生成,TOXIGEN能够覆盖更大规模和更多样化的隐性毒性文本,超越了以往人类编写的资源。
当前挑战
TOXIGEN面临的主要挑战包括解决领域问题,如图像分类中的挑战,以及在构建过程中遇到的挑战。首先,检测隐性毒性言论是一个复杂的问题,因为这种言论通常不包含亵渎或诽谤,且有时具有正面情感,难以大规模收集和检测。其次,从在线平台抓取数据构建数据集时,往往会遇到数据不平衡的问题,特别是涉及少数群体提及的帖子。此外,大型语言模型在生成文本时容易产生社会偏见和有毒内容,这增加了检测和过滤的难度。TOXIGEN通过引入对抗性分类器循环解码算法ALICE,试图生成更具挑战性的数据子集,以提高现有毒性分类器的性能。
常用场景
经典使用场景
TOXIGEN数据集的经典使用场景主要集中在对抗性和隐性仇恨言论检测领域。该数据集通过大规模机器生成的方式,涵盖了274,186条关于13个少数群体的毒性和良性陈述。其独特的生成方法,结合了基于演示的提示框架和对抗性分类器循环解码技术,使得TOXIGEN能够在大规模上覆盖隐性毒性文本,并涉及更多的少数群体,超越了以往人类编写的文本资源。
解决学术问题
TOXIGEN数据集解决了在毒性语言检测系统中常见的过度依赖少数群体提及的问题,这些问题往往导致系统难以检测隐性毒性语言。通过提供一个大规模、机器生成的数据集,TOXIGEN帮助缓解了这些问题,提高了毒性分类器在人类编写数据上的性能。此外,TOXIGEN还展示了其在对抗机器生成毒性方面的潜力,通过微调可以显著提升分类器在评估子集上的表现。
衍生相关工作
TOXIGEN数据集的发布和使用已经催生了一系列相关研究工作。例如,一些研究者利用TOXIGEN进行模型微调,以提高其在多个公开数据集上的性能。此外,TOXIGEN的对抗性生成方法也启发了其他研究,探索如何在生成模型中引入对抗性训练,以提高模型的鲁棒性和泛化能力。这些衍生工作不仅扩展了TOXIGEN的应用范围,也为毒性语言检测领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



