Tigrinya Abusive Language Detection (TiALD)
收藏arXiv2025-05-18 更新2025-05-21 收录
下载链接:
https://github.com/fgaim/tigrinya-abusive-language-detection
下载链接
链接失效反馈官方服务:
资源简介:
TiALD数据集是一个大规模的人工标注的多任务基准数据集,用于在低资源环境下检测提格雷尼亚社交媒体中的滥用语言。该数据集包含9位母语人士对13,717条YouTube评论的标注,这些评论来自7,373个视频,总观看量超过12亿次,涵盖51个频道。数据集采用了迭代术语聚类方法进行有效数据选择。考虑到大约64%的提格雷尼亚社交媒体内容使用罗马化转写而不是本地的吉兹文字,我们的数据集同时容纳了两种书写系统,以反映实际的语言使用。我们还在数据集中加入了对应视频的视觉内容描述,以便研究人员分析用户评论与视频内容之间的关系。我们的实验表明,在低资源环境下,小型、专业的多任务模型在滥用语言检测方面优于当前前沿模型,准确率达到86%(+7个百分点)。
The TiALD dataset is a large-scale manually annotated multi-task benchmark dataset for detecting abusive language in Tigrinya social media in low-resource environments. It comprises annotations of 13,717 YouTube comments sourced from 7,373 videos across 51 channels, with a total cumulative view count exceeding 1.2 billion, completed by 9 native Tigrinya speakers. An iterative term clustering approach was employed for effective data selection. Given that approximately 64% of Tigrinya social media content adopts romanized transcription instead of the native Ge'ez script, our dataset accommodates both writing systems to reflect real-world language usage patterns. We also incorporated visual content descriptions of the corresponding videos into the dataset, allowing researchers to investigate the correlation between user comments and video content. Our experiments show that small, specialized multi-task models outperform current state-of-the-art models in abusive language detection under low-resource settings, achieving an accuracy of 86% (+7 percentage points).
提供机构:
韩国高等科学技术研究院(KAIST)
创建时间:
2025-05-18
搜集汇总
数据集介绍

构建方式
在社交媒体内容审核研究领域,针对低资源语言的滥用语言检测数据集尤为稀缺。TiALD数据集的构建采用了多阶段半自动化策略:首先从52个热门YouTube频道收集了410万条评论,通过GeezSwitch库过滤非提格里尼亚语内容;随后采用创新的迭代式术语聚类方法,从词嵌入空间中分三阶段扩展种子词表,最终形成8,728个多样化词汇的注释池。为确保数据代表性,团队从扩展词表中筛选15,000条评论,并额外随机采样5,000条作为对照组,最终由9名母语标注者对13,717条评论进行三重标注(滥用性、情感、主题)。数据集特别考虑了64%用户使用罗马化转写的实际情况,包含70%格厄兹脚本和30%拉丁/混合脚本的注释样本。
特点
作为首个针对提格里尼亚语的大规模多任务基准数据集,TiALD具有三个显著特征:多维度标注体系同时涵盖滥用性检测(二分类)、情感分析(四分类)和主题分类(五分类)任务;创新性地引入视觉语言模型生成的视频内容描述,构建了独特的跨模态分析维度;严格的质量控制措施包括科恩卡帕系数评估(滥用性κ=0.758,情感κ=0.649,主题κ=0.603)和三专家仲裁的金标准测试集。数据集充分反映了语言使用现实,包含政治(32.6%)、种族(5.6%)、性别歧视(4.8%)等敏感主题的平衡分布,以及负面情感评论(55.7%)与滥用内容(56.0%)的自然比例。
使用方法
TiALD数据集支持三种主要应用范式:单任务微调模式下,研究者可采用TiRoBERTa等预训练模型在13,717条标注数据上独立优化各任务;多任务联合学习框架通过共享编码器和任务特定输出头,利用交叉任务信号提升性能(实验显示联合学习使TiELECTRA-small整体得分提升1.76%);提示工程应用中,GPT-4o等大语言模型可通过零样本/少样本提示实现滥用检测(最佳少样本F1达79.31%)。数据集特别推荐结合视频标题和描述等上下文信息,实验证明该策略能使Claude Sonnet 3.7的零样本性能提升12.82个百分点。
背景与挑战
背景概述
Tigrinya Abusive Language Detection (TiALD) 数据集由韩国科学技术院(KAIST)的研究团队于2025年创建,旨在解决低资源语言环境下社交媒体中滥用语言检测的关键问题。该数据集包含13,717条由九名母语者标注的YouTube评论,涵盖了滥用性检测、情感分析和主题分类三个任务。Tigrinya作为一种主要在厄立特里亚和埃塞俄比亚使用的语言,尽管拥有约1000万使用者,但在计算资源方面严重不足。TiALD数据集的推出填补了这一空白,为内容审核研究和在线安全系统的发展提供了重要资源。
当前挑战
TiALD数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,Tigrinya作为一种低资源语言,缺乏足够的标注数据和预训练模型,导致滥用语言检测的准确性和泛化能力受限。此外,社交媒体中滥用语言的多样性和隐含性增加了检测的难度。在构建过程中,数据采集面临社交媒体内容的动态性和多样性挑战,尤其是约64%的Tigrinya社交媒体内容使用罗马化转写而非原生Ge'ez文字,这要求数据集必须同时涵盖两种书写系统以确保模型的实用性。此外,滥用内容在社交媒体中占比较小,需要通过创新的数据选择方法(如迭代术语聚类)来解决样本不平衡问题。
常用场景
经典使用场景
在社交媒体内容审核研究中,Tigrinya Abusive Language Detection (TiALD) 数据集被广泛应用于低资源语言环境下的多任务学习。该数据集通过联合标注滥用语言检测、情感分析和主题分类三个任务,为研究者在Tigrinya社交媒体内容中识别有害信息提供了丰富的实验基础。其经典使用场景包括训练和评估多语言模型在低资源语言中的表现,以及探索跨任务学习的互补性。
解决学术问题
TiALD数据集解决了低资源语言中滥用语言检测的学术研究问题,填补了Tigrinya语言在内容审核领域的空白。通过提供大规模人工标注的社交媒体评论,该数据集支持研究者开发更精准的检测模型,特别是在处理语言变体(如Ge'ez和拉丁转写)和跨任务信号共享方面。其意义在于推动了语言技术在全球范围内的公平性,为少数语言社区提供了在线安全保护的技术基础。
衍生相关工作
围绕TiALD数据集衍生的经典工作包括低资源语言的多任务学习架构优化、跨语言迁移学习策略,以及基于视觉-语言模型的上下文增强检测方法。相关研究如AfriHate多语言基准测试和Tigrinya专用预训练模型(TiRoBERTa)均受其启发。这些工作共同推动了非洲语言计算语言学的发展,并为其他低资源语言的内容审核研究提供了范式。
以上内容由遇见数据集搜集并总结生成



