five

Tigrinya Abusive Language Detection (TiALD) Dataset

收藏
github2025-05-17 更新2025-05-18 收录
下载链接:
https://github.com/fgaim/tigrinya-abusive-language-detection
下载链接
链接失效反馈
官方服务:
资源简介:
Tigrinya Abusive Language Dataset (TiALD) 是一个大规模、多任务的基准数据集,用于检测Tigrinya语言中的滥用语言。它包含13,717条YouTube评论,注释了滥用性、情感和主题任务。数据集包括用Ge’ez脚本和流行的非标准拉丁转写写的评论,以反映真实世界的使用情况。数据集还包括上下文元数据,如视频标题和VLM生成及LLM增强的相应视频内容描述,支持上下文感知建模。

The Tigrinya Abusive Language Dataset (TiALD) is a large-scale, multi-task benchmark dataset designed for the detection of abusive language in the Tigrinya language. It encompasses 13,717 YouTube comments, annotated for abusive language, sentiment, and thematic tasks. The dataset includes comments written in both the Ge'ez script and popular non-standard Latin transcriptions to reflect real-world usage. Additionally, it features contextual metadata such as video titles and corresponding video content descriptions generated and enhanced by VLM and LLM, supporting context-aware modeling.
创建时间:
2025-05-17
原始信息汇总

Tigrinya Abusive Language Detection (TiALD) Dataset 概述

数据集基本信息

  • 名称: Tigrinya Abusive Language Dataset (TiALD)
  • 语言: 提格里尼亚语(Tigrinya)
  • 规模: 13,717条YouTube评论
  • 脚本类型: 包含Geez脚本和非标准拉丁转写
  • 来源: 51个提格里尼亚语社区热门频道的YouTube评论
  • 数据收集: 从约410万条评论中通过嵌入语义扩展策略筛选

核心特性

  • 多任务标注:
    • 辱骂性检测: 二元分类(Abusive/Not Abusive)
    • 情感分析: 四分类(Positive/Neutral/Negative/Mixed)
    • 主题分类: 五分类(Political/Racial/Sexist/Religious/Other)
  • 上下文信息:
    • 视频标题和AI生成的视频内容描述
    • 频道信息和观看量等元数据

数据统计

拆分 样本数 辱骂性 非辱骂性 政治 种族 性别 宗教 其他主题 积极 中性 消极 混合
训练 12,317 6,980 5,337 4,037 633 564 244 6,839 2,433 1,671 6,907 1,306
测试 900 450 450 279 113 78 157 273 226 129 474 71
验证 500 250 250 159 23 21 11 286 108 71 252 69

数据特征

  • 评论信息: 原始文本、清洗后文本、发布日期、书写系统
  • 视频信息: ID、标题、发布时间、观看量、生成描述
  • 标注信息: 三个任务的标注结果及标注者ID

获取方式

  • Hugging Face地址: https://huggingface.co/datasets/fgaim/tigrinya-abusive-language-detection
  • 加载代码: python from datasets import load_dataset dataset = load_dataset("fgaim/tigrinya-abusive-language-detection")

基准模型表现

单任务模型最佳表现

指标 Abusiveness Sentiment Topic TiALD Score
最佳模型 TiRoBERTa-base (Acc 86.67) Afro-XLMR-Large-76L (Acc 68.56) TiRoBERTa-base (Acc 62.00) 64.81

大语言模型表现

模型 零样本F1 少样本F1
GPT-4o 71.05 72.06
Claude Sonnet 3.7 59.20 79.31

使用注意事项

  • 内容警告: 包含明确、淫秽和潜在仇恨言论
  • 用途限制: 仅限研究使用
  • 伦理考量: 已获IRB批准(KH2022-133)

引用格式

bibtex @inproceedings{gaim-etal-2025-tiald, title = {TiALD: A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings}, author = {Fitsum Gaim, Hoyun Song, Huije Lee, Changgeon Ko, Eui Jun Hwang, Jong C. Park}, year = {2025}, month = {April}, url = {https://github.com/fgaim/tigrinya-abusive-language-detection} }

许可协议

  • 类型: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 链接: https://creativecommons.org/licenses/by/4.0/
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言处理领域,Tigrinya Abusive Language Detection (TiALD) 数据集的构建采用了系统化的采集策略。研究团队从51个提格里尼亚语热门YouTube频道中,通过嵌入语义扩展技术从410万条初始评论中筛选出13,717条代表性样本。数据标注采用多任务框架,由母语者完成对评论的滥用性、情感倾向和主题的三重标注,并保留原始Ge'ez文字和拉丁转写两种书写形式。为增强上下文理解,数据集还整合了视频标题及视觉语言模型生成的视频内容描述。
使用方法
研究人员可通过Hugging Face平台便捷获取该数据集,使用标准接口加载后即可开展多任务学习。典型应用场景包括:基于TiELECTRA-small等基线模型的迁移学习实验,探索视频上下文信息对检测性能的影响,以及评估大语言模型在低资源语言中的泛化能力。使用需注意伦理规范,所有预测结果应保存为特定JSON格式,配套的评估脚本可自动计算准确率、宏F1值等指标。为保障研究合规性,建议严格遵循数据使用协议,并配合人工审核机制。
背景与挑战
背景概述
Tigrinya Abusive Language Detection (TiALD) Dataset是由韩国科学技术院(KAIST)的研究团队于2025年发布的针对提格里尼亚语(Tigrinya)的大规模多任务基准数据集。该数据集聚焦于低资源语言环境下的网络暴力内容检测这一前沿研究领域,收录了来自51个热门频道的13,717条YouTube评论,每条评论均标注了暴力程度、情感倾向和话题类别三个维度的信息。数据集创新性地融合了Ge'ez文字和拉丁转写两种书写形式,并附带了视频标题、观看量等上下文元数据,为语境感知建模提供了重要支撑。作为首个系统性的提格里尼亚语暴力内容检测资源,TiALD填补了非洲语言在内容安全研究领域的空白,对推动多语言自然语言处理技术的发展具有重要意义。
当前挑战
TiALD数据集面临的挑战主要体现在两个方面:在领域问题层面,提格里尼亚语作为低资源语言,其复杂的形态变化和混合书写系统给暴力内容识别带来了独特困难,特别是需要区分文化特定语境下的隐晦表达与直接暴力语言;在构建过程层面,研究团队需要克服标注一致性难题,通过专家仲裁机制解决情感分析和话题分类中出现的模棱两可案例,同时设计嵌入语义扩展策略从410万条原始评论中筛选具有代表性的样本。此外,数据集包含的敏感内容要求研究者必须严格遵守伦理准则,在保护言论自由与内容安全之间保持平衡。
常用场景
经典使用场景
在自然语言处理领域,Tigrinya Abusive Language Detection (TiALD) Dataset为研究低资源语言中的恶意语言检测提供了重要支持。该数据集包含13,717条YouTube评论,涵盖了多种任务如恶意性检测、情感分析和主题分类。其独特之处在于同时包含了Ge’ez脚本和非标准拉丁转写,真实反映了现实世界中的语言使用情况。研究人员可以利用这一数据集进行多任务建模,探索不同任务之间的关联性,以及在不同书写系统下的模型表现差异。
解决学术问题
TiALD数据集有效解决了低资源语言研究中数据匮乏的关键问题。针对提格里尼亚语这一资源稀缺语言,该数据集提供了大规模、多任务的标注数据,填补了该领域的研究空白。通过支持恶意性检测、情感分析和主题分类三个互补任务,该数据集为研究多任务学习、跨任务迁移以及语境感知建模提供了理想平台。其包含的视频上下文信息进一步拓展了语境相关研究的可能性,为理解网络恶意语言的产生和传播机制提供了新的视角。
实际应用
在实际应用层面,TiALD数据集为开发提格里尼亚语社区的在线内容审核系统奠定了基础。社交媒体平台可基于该数据集训练的模型,自动识别潜在恶意评论,辅助人工审核工作。教育机构可利用其情感分析功能监测网络言论环境,开展网络素养教育。政府部门也能借助主题分类结果,了解社区关注焦点和潜在冲突点,制定更有针对性的网络治理政策。值得注意的是,实际部署时需结合人工审核,避免自动化系统可能带来的误判和文化误解。
数据集最近研究
最新研究方向
在低资源语言环境中,Tigrinya Abusive Language Detection (TiALD) 数据集为研究社区提供了一个重要的多任务基准,特别是在处理非标准拉丁转写和Ge'ez文字混合的现实场景中。当前研究聚焦于上下文感知的滥用语言检测模型,结合视频元数据和多模态信息,以提升模型在复杂语境下的性能。前沿工作探索了多语言模型的微调策略,以及大型语言模型在零样本和少样本设置下的表现,为低资源语言的自动化内容审核提供了新的技术路径。该数据集的出现填补了提格里尼亚语在滥用语言检测领域的空白,推动了跨文化、跨语言的内容安全研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作