Crowdsourced_Toxic_Response_Dataset

Hugging Face2024-12-26 更新2024-12-27 收录

下载链接：

https://huggingface.co/datasets/czl9794/Crowdsourced_Toxic_Response_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于NeurIPS'24论文《Soft-Label Integration for Robust Toxicity Classification》中的毒性分类研究。数据集包含有毒和非毒性的问题，每个问题由三个人类标注者和三个大型语言模型（GPT-4、GPT-4 Turbo和Claude-2）进行标注。六个标注者的标注质量各不相同。

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

Crowdsourced_Toxic_Response_Dataset的构建过程融合了人类标注与大型语言模型的协同工作。数据集中的每条记录均包含三个独立的人类标注者（'label_1', 'label_2', 'label_3'）和三个不同的大型语言模型（GPT-4、GPT-4 Turbo、Claude-2）的标注结果。这种多源标注策略不仅确保了数据的多样性，还通过不同标注者的视角提升了数据的鲁棒性。数据集的构建旨在为毒性分类研究提供高质量的标注数据，支持更精确的模型训练与评估。

特点

Crowdsourced_Toxic_Response_Dataset的显著特点在于其多源标注的丰富性与标注质量的差异性。数据集包含两类标签，分别表示非毒性（0）和毒性（1），每条记录均包含六种不同的标注结果，分别来自人类标注者和大型语言模型。这种设计使得数据集能够捕捉到不同标注者对毒性问题的多样化理解，同时也反映了不同标注工具在毒性识别上的表现差异。数据集的高质量标注为毒性分类研究提供了宝贵的资源。

使用方法

Crowdsourced_Toxic_Response_Dataset的使用方法主要围绕毒性分类任务的模型训练与评估展开。研究人员可以利用数据集中的多源标注结果，通过集成学习或软标签技术提升模型的鲁棒性与分类精度。数据集中的标注差异也为研究标注质量对模型性能的影响提供了实验基础。使用该数据集时，建议引用相关论文以尊重数据集的贡献者，并可通过邮件联系作者获取更多技术支持与数据集细节。

背景与挑战

背景概述

Crowdsourced_Toxic_Response_Dataset是由Zelei Cheng等研究人员在2024年NeurIPS会议上提出的，旨在支持其论文《Soft-Label Integration for Robust Toxicity Classification》的研究。该数据集专注于毒性问题分类，包含两类标签：非毒性和毒性。数据集的构建结合了三位人类标注者和三种大型语言模型（GPT-4、GPT-4 Turbo和Claude-2）的标注结果，旨在通过软标签集成方法提升毒性分类的鲁棒性。该数据集的发布为自然语言处理领域中的毒性检测研究提供了新的数据资源，推动了相关算法的发展。

当前挑战

Crowdsourced_Toxic_Response_Dataset在构建和应用过程中面临多重挑战。在领域问题层面，毒性检测本身具有高度主观性，不同标注者可能对同一文本的毒性判断存在显著差异，导致标签一致性难以保证。此外，毒性语言的多样性和语境依赖性增加了分类的复杂性。在数据集构建层面，如何有效整合人类标注者与大型语言模型的标注结果，平衡不同标注源的权重，是一个关键挑战。同时，确保标注质量的一致性，避免因标注者偏见或模型误差引入噪声，也是数据集构建中需要解决的重要问题。

常用场景

经典使用场景

Crowdsourced_Toxic_Response_Dataset在自然语言处理领域中被广泛应用于毒性分类任务。该数据集通过结合人类标注者和大型语言模型的标注结果，为研究者提供了一个多源标注的毒性问题分类平台。经典的使用场景包括训练和评估毒性分类模型，特别是在处理模糊或争议性文本时，该数据集的多源标注特性能够显著提升模型的鲁棒性和泛化能力。

解决学术问题

该数据集解决了毒性分类任务中标注不一致和模型鲁棒性不足的学术问题。通过整合人类标注者和多种大型语言模型的标注结果，研究者能够更全面地理解文本的毒性特征，并开发出更具适应性的分类算法。这一数据集的出现为毒性分类领域提供了新的研究视角，推动了该领域的技术进步和理论发展。

衍生相关工作

基于Crowdsourced_Toxic_Response_Dataset，研究者们开发了多种毒性分类模型和算法。例如，Soft-Label Integration方法通过整合多源标注结果，显著提升了分类模型的性能。此外，该数据集还催生了一系列关于标注质量评估和模型鲁棒性增强的研究工作，为自然语言处理领域的毒性分类任务提供了丰富的理论支持和实践指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集