AmitDasRup123/OffensiveLang
收藏OffensiveLang 数据集概述
概述
OffensiveLang 是一个基于社区的隐含攻击性语言数据集,由 ChatGPT 3.5 生成,包含针对 38 个不同目标群体的数据。该数据集由 Amazon MTurk 工人精心标注,确保高质量的仇恨言论标签。此外,采用了基于提示的零样本方法与 ChatGPT 进行比较,检测结果在人类标注和 ChatGPT 标注之间进行了对比。该数据集对从事隐含仇恨言论检测和大型语言模型的研究人员和从业者具有重要价值。
来源: ChatGPT 3.5
文本数量: 8270 条
- 训练集: 6616 条
- 测试集: 1654 条
OffensiveLang.csv 详细信息
-
Column1: Text
包含由 ChatGPT 3.5 生成的文本。 -
Column2: Category
表示目标群体的类别。 -
Column3: Target Group
指定文本的目标群体。 -
Column4: Final Annotation
最终的人类标注,由三名 MTurk 标注者中的多数投票决定(此标注将用于模型训练和评估)。 -
Column5: OpenAI_Annotation
ChatGPT 3.5 提供的标注。 -
Column6-8: Annotator1-3
三名人类标注者的个体标注。
引用
如果使用此数据集进行研究,请引用以下论文:
@article{das2024offlandat, title={OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering}, author={Das, Amit and Rahgouy, Mostafa and Feng, Dongji and Zhang, Zheng and Bhattacharya, Tathagata and Raychawdhary, Nilanjana and Sandage, Mary and Pope, Lauramarie and Dozier, Gerry and Seals, Cheryl}, journal={arXiv preprint arXiv:2403.02472}, year={2024} }
许可证
CC BY 4.0



