five

AmitDasRup123/OffensiveLang

收藏
Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/AmitDasRup123/OffensiveLang
下载链接
链接失效反馈
官方服务:
资源简介:
OffensiveLang是一个基于社区的隐式攻击性语言数据集,由ChatGPT 3.5生成,包含38个不同目标群体的数据。数据集经过Amazon MTurk工人的细致标注,确保了高质量的仇恨言论标签。此外,还使用了基于提示的零样本方法与ChatGPT进行比较,分析了人类标注与ChatGPT标注的检测结果。数据集对研究隐式仇恨言论检测和大语言模型的研究人员和实践者具有重要价值。数据集的详细信息包括文本、类别、目标群体、最终标注、OpenAI标注以及三个标注者的个体标注。

OffensiveLang是一个基于社区的隐式攻击性语言数据集,由ChatGPT 3.5生成,包含38个不同目标群体的数据。数据集经过Amazon MTurk工人的细致标注,确保了高质量的仇恨言论标签。此外,还使用了基于提示的零样本方法与ChatGPT进行比较,分析了人类标注与ChatGPT标注的检测结果。数据集对研究隐式仇恨言论检测和大语言模型的研究人员和实践者具有重要价值。数据集的详细信息包括文本、类别、目标群体、最终标注、OpenAI标注以及三个标注者的个体标注。
提供机构:
AmitDasRup123
原始信息汇总

OffensiveLang 数据集概述

概述

OffensiveLang 是一个基于社区的隐含攻击性语言数据集,由 ChatGPT 3.5 生成,包含针对 38 个不同目标群体的数据。该数据集由 Amazon MTurk 工人精心标注,确保高质量的仇恨言论标签。此外,采用了基于提示的零样本方法与 ChatGPT 进行比较,检测结果在人类标注和 ChatGPT 标注之间进行了对比。该数据集对从事隐含仇恨言论检测和大型语言模型的研究人员和从业者具有重要价值。

来源: ChatGPT 3.5
文本数量: 8270 条

  • 训练集: 6616 条
  • 测试集: 1654 条

OffensiveLang.csv 详细信息

  • Column1: Text
    包含由 ChatGPT 3.5 生成的文本。

  • Column2: Category
    表示目标群体的类别。

  • Column3: Target Group
    指定文本的目标群体。

  • Column4: Final Annotation
    最终的人类标注,由三名 MTurk 标注者中的多数投票决定(此标注将用于模型训练和评估)。

  • Column5: OpenAI_Annotation
    ChatGPT 3.5 提供的标注。

  • Column6-8: Annotator1-3
    三名人类标注者的个体标注。

引用

如果使用此数据集进行研究,请引用以下论文:

@article{das2024offlandat, title={OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering}, author={Das, Amit and Rahgouy, Mostafa and Feng, Dongji and Zhang, Zheng and Bhattacharya, Tathagata and Raychawdhary, Nilanjana and Sandage, Mary and Pope, Lauramarie and Dozier, Gerry and Seals, Cheryl}, journal={arXiv preprint arXiv:2403.02472}, year={2024} }

许可证

CC BY 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作