AmitDasRup123/OffensiveLang

Name: AmitDasRup123/OffensiveLang
Creator: AmitDasRup123
Published: 2024-06-20 13:19:11
License: 暂无描述

Hugging Face2024-06-20 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/AmitDasRup123/OffensiveLang

下载链接

链接失效反馈

官方服务：

资源简介：

OffensiveLang是一个基于社区的隐式攻击性语言数据集，由ChatGPT 3.5生成，包含38个不同目标群体的数据。数据集经过Amazon MTurk工人的细致标注，确保了高质量的仇恨言论标签。此外，还使用了基于提示的零样本方法与ChatGPT进行比较，分析了人类标注与ChatGPT标注的检测结果。数据集对研究隐式仇恨言论检测和大语言模型的研究人员和实践者具有重要价值。数据集的详细信息包括文本、类别、目标群体、最终标注、OpenAI标注以及三个标注者的个体标注。

提供机构：

AmitDasRup123

原始信息汇总

OffensiveLang 数据集概述

概述

OffensiveLang 是一个基于社区的隐含攻击性语言数据集，由 ChatGPT 3.5 生成，包含针对 38 个不同目标群体的数据。该数据集由 Amazon MTurk 工人精心标注，确保高质量的仇恨言论标签。此外，采用了基于提示的零样本方法与 ChatGPT 进行比较，检测结果在人类标注和 ChatGPT 标注之间进行了对比。该数据集对从事隐含仇恨言论检测和大型语言模型的研究人员和从业者具有重要价值。

来源: ChatGPT 3.5
文本数量: 8270 条

训练集: 6616 条
测试集: 1654 条

OffensiveLang.csv 详细信息

Column1: Text
包含由 ChatGPT 3.5 生成的文本。
Column2: Category
表示目标群体的类别。
Column3: Target Group
指定文本的目标群体。
Column4: Final Annotation
最终的人类标注，由三名 MTurk 标注者中的多数投票决定（此标注将用于模型训练和评估）。
Column5: OpenAI_Annotation
ChatGPT 3.5 提供的标注。
Column6-8: Annotator1-3
三名人类标注者的个体标注。

引用

如果使用此数据集进行研究，请引用以下论文：

@article{das2024offlandat, title={OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering}, author={Das, Amit and Rahgouy, Mostafa and Feng, Dongji and Zhang, Zheng and Bhattacharya, Tathagata and Raychawdhary, Nilanjana and Sandage, Mary and Pope, Lauramarie and Dozier, Gerry and Seals, Cheryl}, journal={arXiv preprint arXiv:2403.02472}, year={2024} }

许可证

CC BY 4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集