five

christophsonntag/OLID|攻击性语言识别数据集|文本分类数据集

收藏
hugging_face2024-03-15 更新2024-06-11 收录
攻击性语言识别
文本分类
下载链接:
https://hf-mirror.com/datasets/christophsonntag/OLID
下载链接
链接失效反馈
资源简介:
Offensive Language Identification Dataset (OLID) 包含14,100条来自Twitter的推文,通过众包方式进行注释,并分为三个子任务:A级(识别攻击性语言)、B级(自动分类攻击类型)和C级(识别攻击目标)。数据集的结构包括训练集和测试集,分别包含13,240和860条推文。数据集的注释过程考虑了三个注释者的一致性,并对用户提及和URL进行了替换。

Offensive Language Identification Dataset (OLID) 包含14,100条来自Twitter的推文,通过众包方式进行注释,并分为三个子任务:A级(识别攻击性语言)、B级(自动分类攻击类型)和C级(识别攻击目标)。数据集的结构包括训练集和测试集,分别包含13,240和860条推文。数据集的注释过程考虑了三个注释者的一致性,并对用户提及和URL进行了替换。
提供机构:
christophsonntag
原始信息汇总

数据集概述

数据集名称: Offensive Language Identification Dataset (OLID)

语言: 英语

数据集大小: 14,100条推文

数据集结构:

  • 文件结构: 分为训练集和测试集,分别存储于train.csvtest.csv
  • 数据字段:
    • id: 整数类型
    • tweet: 字符串类型
    • cleaned_tweet: 字符串类型
    • subtask_a: 字符串类型
    • subtask_b: 字符串类型
    • subtask_c: 字符串类型

任务类型: 文本分类

任务描述:

  • 子任务A(Offensive Language Identification): 识别推文是否包含攻击性语言。
    • (NOT) Not Offensive: 非攻击性
    • (OFF) Offensive: 攻击性
  • 子任务B(Automatic Categorization of Offense Types): 自动分类攻击类型。
    • (TIN) Targeted Insult and Threats: 针对个人的侮辱和威胁
    • (UNT) Untargeted: 非针对个人的侮辱
  • 子任务C(Offense Target Identification): 识别攻击目标。
    • (IND) Individual: 个人
    • (GRP) Group: 群体
    • (OTH) Other: 其他

数据收集和处理:

  • 数据来源于Twitter,通过API搜索特定关键词和构造,如“she is”或“to:BreitBartNews”等,以获取可能包含攻击性内容的推文。

注释过程:

  • 通过众包方式进行注释,每个实例的黄金标签基于三个不同注释者的共识。

数据集用途:

  • 用于研究和开发攻击性语言检测和分类模型。

数据集来源:

AI搜集汇总
数据集介绍
main_image_url
构建方式
OLID数据集的构建基于从Twitter平台收集的推文数据,通过API检索包含特定关键词的推文,这些关键词通常与冒犯性语言相关。数据收集后,采用众包方式进行标注,确保每个样本由三位标注者独立标注,最终通过多数表决确定黄金标签。推文中的用户提及和URL被分别替换为@USER和URL,以保护隐私。
使用方法
OLID数据集主要用于冒犯性语言的检测与分类研究。研究人员可通过Hugging Face平台加载数据集,直接使用train.csv和test.csv文件进行模型训练与测试。数据集的分层标注结构支持多任务学习,用户可根据研究需求选择特定子任务进行实验。此外,数据集还可用于评估模型在冒犯性语言识别中的鲁棒性和泛化能力。
背景与挑战
背景概述
Offensive Language Identification Dataset (OLID) 是一个专注于社交媒体中冒犯性语言识别的数据集,由Christoph Sonntag等人于2019年发布。该数据集包含14,100条来自Twitter的推文,通过众包方式进行标注,旨在解决冒犯性语言的检测、分类及目标识别问题。OLID的发布填补了以往数据集仅关注特定类型冒犯性内容(如仇恨言论、网络欺凌等)的空白,提供了一个更为全面的冒犯性语言分析框架。该数据集通过层次化标注,涵盖了冒犯性语言的检测(OFF/NOT)、冒犯类型自动分类(TIN/UNT)以及冒犯目标识别(IND/GRP/OTH)三个子任务,为社交媒体内容分析提供了重要的研究基础。
当前挑战
OLID数据集在构建和应用过程中面临多重挑战。首先,冒犯性语言的界定具有高度主观性,不同文化背景和语境下的理解差异可能导致标注不一致。其次,众包标注虽然能够提高数据多样性,但也引入了标注者主观偏见和标注质量参差不齐的问题。此外,社交媒体语言的动态性和多样性使得冒犯性语言的检测和分类任务更加复杂,尤其是在处理隐晦或间接的冒犯性内容时。最后,数据集的规模相对较小,可能限制了模型在泛化能力上的表现,尤其是在面对新兴的冒犯性语言形式时。这些挑战要求研究者在模型设计和评估中充分考虑数据的多样性和复杂性。
常用场景
经典使用场景
OLID数据集在自然语言处理领域中被广泛用于文本分类任务,特别是针对社交媒体中的冒犯性语言识别。研究者利用该数据集训练和测试机器学习模型,以自动检测和分类推文中的冒犯性内容。这种应用不仅限于学术研究,还被用于开发社交媒体监控工具,帮助平台自动过滤不当言论。
解决学术问题
OLID数据集解决了社交媒体中冒犯性语言自动识别和分类的学术问题。通过提供层次化的标注体系,该数据集使得研究者能够深入分析冒犯性语言的不同维度,包括其类型和目标。这种细致的分类有助于开发更精确的模型,提升自动检测系统的性能,从而在保护用户免受网络暴力方面发挥重要作用。
实际应用
在实际应用中,OLID数据集被用于开发社交媒体平台的自动内容审核系统。这些系统能够实时监控用户发布的内容,识别并过滤出含有冒犯性语言的帖子,从而维护网络环境的健康和安全。此外,该数据集还被用于教育领域,帮助培训学生和研究人员理解和处理网络语言中的敏感内容。
数据集最近研究
最新研究方向
在社交媒体内容分析领域,Offensive Language Identification Dataset (OLID) 数据集的最新研究方向主要集中在深度学习和自然语言处理技术的结合应用上。研究者们利用该数据集进行多层次文本分类,特别是在识别和分类攻击性语言方面取得了显著进展。此外,随着社交媒体平台对内容监管的日益严格,OLID数据集也被用于开发更为精准的自动化内容审核系统,以减少人工审核的负担并提高审核效率。这些研究不仅推动了文本分类技术的发展,也为社交媒体平台提供了有效的工具,以应对日益复杂的网络环境挑战。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MinneApple 苹果检测数据集

MinneApple 是一个用于苹果检测和分割的基准数据集。该数据集使用多边形掩码为每个对象实例进行标注,以帮助进行精确的对象检测、定位、和分割。此外,该数据集提供了基于补丁的聚类水果计数数据。该数据集在 1000 张图像中包含超过 41,0000 个带标注的对象实例。

超神经 收录

Eurovision Song Contest Dataset

Eurovision Song Contest数据集是一个免费提供的数据集,包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据,这些歌曲参与了从1956年到2023年的Eurovision Song Contest。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录