SOLID

Name: SOLID
Creator: 卡塔尔计算研究机构
Published: 2021-09-25 00:36:35
License: 暂无描述

arXiv2021-09-25 更新2024-06-21 收录

下载链接：

http://sites.google.com/site/offensevalsharedtask/solid

下载链接

链接失效反馈

官方服务：

资源简介：

SOLID数据集是由卡塔尔计算研究机构创建的一个大型半监督数据集，专门用于识别攻击性语言。该数据集包含了超过九百万条英语推文，这些推文是通过更为系统的方法收集的，不同于以往使用关键词收集的方式。SOLID数据集的创建旨在解决现有数据集OLID的局限性，如大小限制和可能存在的偏见。通过SOLID与OLID的结合使用，可以显著提高在OLID测试集上的性能，尤其是在分类层次的较低级别。此外，SOLID数据集还用于SemEval共享任务OffensEval-2020，展示了其在实际应用中的价值。

The SOLID dataset is a large-scale semi-supervised dataset created by the Qatar Computing Research Institute, specifically designed for offensive language identification. It contains over nine million English tweets collected via a more systematic methodology, contrasting with prior keyword-driven collection approaches. The SOLID dataset was developed to address the limitations of the existing OLID dataset, such as its size constraints and potential biases. By combining SOLID with OLID, performance on the OLID test set can be significantly improved, especially at the lower tiers of the classification hierarchy. Furthermore, the SOLID dataset was utilized in the SemEval shared task OffensEval-2020, demonstrating its practical value.

提供机构：

卡塔尔计算研究机构

创建时间：

2020-04-30

搜集汇总

数据集介绍

构建方式

在社交媒体内容审核领域，构建大规模标注数据集面临高昂成本与类不平衡的挑战。SOLID数据集采用半监督方法，以OLID作为种子数据集，通过民主协同训练框架集成PMI、FastText、LSTM和BERT四种异构模型。数据采集摒弃了传统关键词筛选策略，转而基于英语高频停用词从Twitter流式API随机抽取逾1200万条推文，经语言检测与长度过滤后保留900万条作为训练样本。模型集成通过平均置信度与标准差生成层级标签，并依据阈值筛选高置信度样本，有效缓解了标注噪声与数据偏差。

特点

SOLID作为目前规模最大的英语冒犯性语言识别数据集，其核心特征体现在层级化标注体系与数据多样性。数据集严格遵循OLID的三层分类框架，涵盖冒犯性检测、目标类型与目标对象识别，为细粒度分析提供结构化基础。数据样本兼具显性与隐性冒犯内容，通过模型置信度划分“简单”与“困难”样本，揭示了传统诅咒词基线在隐晦表达识别上的局限性。此外，基于随机采样的构建策略显著降低了关键词引入的选择偏差，使数据分布更贴近真实社交媒体场景。

使用方法

该数据集主要服务于冒犯性语言检测模型的训练与评估。研究者可将SOLID与OLID结合使用，通过半监督样本扩充提升模型在稀缺类别上的性能，尤其在分类体系的中低层级效果显著。实际应用中，建议利用数据集中提供的平均置信度与标准差进行样本过滤，以控制标注噪声。对于困难样本的识别任务，可结合置信度分层开展对抗性测试，探索模型在隐晦表达上的泛化能力。数据集亦支持跨模型比较研究，为民主协同训练等半监督算法提供基准测试平台。

背景与挑战

背景概述

SOLID数据集作为大规模半监督攻击性语言识别资源，于2021年由IBM研究院、哥本哈根大学、剑桥大学等机构联合发布，旨在应对社交媒体中攻击性内容泛滥的严峻挑战。该数据集构建于OLID数据集基础之上，通过民主协同训练技术，以更系统的方法采集了超过九百万条英文推文，并采用三层分类体系对攻击性语言进行细粒度标注。其核心研究问题聚焦于提升攻击性语言自动检测的准确性与鲁棒性，尤其针对传统数据集中因样本稀缺导致的分类性能瓶颈。SOLID的推出显著推动了自然语言处理领域在内容安全方向的研究进展，成为SemEval 2020官方评测数据集，为构建更健康的网络环境提供了关键数据支撑。

当前挑战

SOLID数据集致力于解决攻击性语言识别领域的双重挑战：其一，在任务层面，攻击性语言本身具有高度隐含性与语境依赖性，尤其是非显性攻击内容（如影射或群体歧视）的准确检测仍面临巨大困难；其二，在构建过程中，数据采集需克服传统关键词方法导致的样本偏差问题，同时需应对攻击性语言自然发生率极低所带来的标注成本高昂难题。此外，半监督标注机制虽能扩展数据规模，但不可避免会引入噪声标签，且层级分类体系中底层类别样本稀疏性进一步加剧了模型训练的稳定性挑战。

常用场景

经典使用场景

在社交媒体内容审核与网络文明治理领域，SOLID数据集凭借其大规模半监督标注特性，成为训练高性能冒犯性语言识别模型的核心资源。研究者通常将其作为基础训练集，结合OLID的精细标注，构建多层次分类系统，以区分冒犯性内容的类型与目标。该数据集尤其擅长处理隐含性冒犯文本，为模型在复杂语境下的泛化能力提供关键支撑。

衍生相关工作

SOLID催生了多语言冒犯性语言检测体系的扩展研究，如针对阿拉伯语、希腊语等语言的适配工作。其半监督标注范式被后续研究借鉴，用于构建其他低资源场景的文本分类数据集。基于该数据集的层次化分析框架，衍生出针对特定冒犯类型（如性别歧视、种族仇恨）的专项检测模型，并促进了跨平台内容审核标准的统一化探讨。

数据集最近研究