christophsonntag/OLID

Hugging Face2024-03-15 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/christophsonntag/OLID

下载链接

链接失效反馈

资源简介：

Offensive Language Identification Dataset (OLID) 包含14,100条来自Twitter的推文，通过众包方式进行注释，并分为三个子任务：A级（识别攻击性语言）、B级（自动分类攻击类型）和C级（识别攻击目标）。数据集的结构包括训练集和测试集，分别包含13,240和860条推文。数据集的注释过程考虑了三个注释者的一致性，并对用户提及和URL进行了替换。

提供机构：

christophsonntag

原始信息汇总

数据集概述

数据集名称： Offensive Language Identification Dataset (OLID)

语言： 英语

数据集大小： 14,100条推文

数据集结构：

文件结构： 分为训练集和测试集，分别存储于train.csv和test.csv。
数据字段：
- id: 整数类型
- tweet: 字符串类型
- cleaned_tweet: 字符串类型
- subtask_a: 字符串类型
- subtask_b: 字符串类型
- subtask_c: 字符串类型

任务类型： 文本分类

任务描述：

子任务A（Offensive Language Identification）： 识别推文是否包含攻击性语言。
- (NOT) Not Offensive: 非攻击性
- (OFF) Offensive: 攻击性
子任务B（Automatic Categorization of Offense Types）： 自动分类攻击类型。
- (TIN) Targeted Insult and Threats: 针对个人的侮辱和威胁
- (UNT) Untargeted: 非针对个人的侮辱
子任务C（Offense Target Identification）： 识别攻击目标。
- (IND) Individual: 个人
- (GRP) Group: 群体
- (OTH) Other: 其他

数据收集和处理：

数据来源于Twitter，通过API搜索特定关键词和构造，如“she is”或“to:BreitBartNews”等，以获取可能包含攻击性内容的推文。

注释过程：

通过众包方式进行注释，每个实例的黄金标签基于三个不同注释者的共识。

数据集用途：

用于研究和开发攻击性语言检测和分类模型。

数据集来源：

GitHub仓库： OLID GitHub Repository
相关论文： Predicting the Type and Target of Offensive Posts in Social Media

AI搜集汇总

数据集介绍

构建方式

OLID数据集的构建基于从Twitter平台收集的推文数据，通过API检索包含特定关键词的推文，这些关键词通常与冒犯性语言相关。数据收集后，采用众包方式进行标注，确保每个样本由三位标注者独立标注，最终通过多数表决确定黄金标签。推文中的用户提及和URL被分别替换为@USER和URL，以保护隐私。

使用方法

OLID数据集主要用于冒犯性语言的检测与分类研究。研究人员可通过Hugging Face平台加载数据集，直接使用train.csv和test.csv文件进行模型训练与测试。数据集的分层标注结构支持多任务学习，用户可根据研究需求选择特定子任务进行实验。此外，数据集还可用于评估模型在冒犯性语言识别中的鲁棒性和泛化能力。

背景与挑战

背景概述

Offensive Language Identification Dataset (OLID) 是一个专注于社交媒体中冒犯性语言识别的数据集，由Christoph Sonntag等人于2019年发布。该数据集包含14,100条来自Twitter的推文，通过众包方式进行标注，旨在解决冒犯性语言的检测、分类及目标识别问题。OLID的发布填补了以往数据集仅关注特定类型冒犯性内容（如仇恨言论、网络欺凌等）的空白，提供了一个更为全面的冒犯性语言分析框架。该数据集通过层次化标注，涵盖了冒犯性语言的检测（OFF/NOT）、冒犯类型自动分类（TIN/UNT）以及冒犯目标识别（IND/GRP/OTH）三个子任务，为社交媒体内容分析提供了重要的研究基础。

当前挑战

OLID数据集在构建和应用过程中面临多重挑战。首先，冒犯性语言的界定具有高度主观性，不同文化背景和语境下的理解差异可能导致标注不一致。其次，众包标注虽然能够提高数据多样性，但也引入了标注者主观偏见和标注质量参差不齐的问题。此外，社交媒体语言的动态性和多样性使得冒犯性语言的检测和分类任务更加复杂，尤其是在处理隐晦或间接的冒犯性内容时。最后，数据集的规模相对较小，可能限制了模型在泛化能力上的表现，尤其是在面对新兴的冒犯性语言形式时。这些挑战要求研究者在模型设计和评估中充分考虑数据的多样性和复杂性。

常用场景

经典使用场景

OLID数据集在自然语言处理领域中被广泛用于文本分类任务，特别是针对社交媒体中的冒犯性语言识别。研究者利用该数据集训练和测试机器学习模型，以自动检测和分类推文中的冒犯性内容。这种应用不仅限于学术研究，还被用于开发社交媒体监控工具，帮助平台自动过滤不当言论。

解决学术问题

OLID数据集解决了社交媒体中冒犯性语言自动识别和分类的学术问题。通过提供层次化的标注体系，该数据集使得研究者能够深入分析冒犯性语言的不同维度，包括其类型和目标。这种细致的分类有助于开发更精确的模型，提升自动检测系统的性能，从而在保护用户免受网络暴力方面发挥重要作用。

实际应用

在实际应用中，OLID数据集被用于开发社交媒体平台的自动内容审核系统。这些系统能够实时监控用户发布的内容，识别并过滤出含有冒犯性语言的帖子，从而维护网络环境的健康和安全。此外，该数据集还被用于教育领域，帮助培训学生和研究人员理解和处理网络语言中的敏感内容。

数据集最近研究