Setswana Sentiment Dataset

Name: Setswana Sentiment Dataset
Creator: 比勒陀利亚大学·社会影响数据科学; 比勒陀利亚大学·非洲语言系; 帝国理工学院; 国立理工学院
Published: 2026-05-27 00:21:20
License: 暂无描述

arXiv2026-05-27 更新2026-05-28 收录

下载链接：

https://arxiv.org/abs/2605.27239v1

下载链接

链接失效反馈

官方服务：

资源简介：

该Setswana情感数据集是由比勒陀利亚大学等机构构建的一个低资源语言标注资源，专门针对南非官方语言Setswana的推特文本进行情感分析。数据集包含3,565条推文，由三位母语标注者进行多批次人工标注，涵盖积极、消极、中性等五类情感标签，其中有效分类数据达3,454条，数据来源于2021年至2022年间的公开推特API，并经过语言识别和匿名化处理。创建过程采用LightTag标注工具，分七批次异步独立完成，并记录了每次标注的时间戳元数据，以支持质量审计。该数据集旨在解决非洲语言NLP资源稀缺问题，通过分析标注质量随时间下降的规律，为情感分类模型提供训练基准，并推动标注活动设计优化以提升低资源语言数据集的可靠性。

This Setswana sentiment dataset is a low-resource language annotation resource developed by the University of Pretoria and other institutions, specifically designed for sentiment analysis of Twitter texts in Setswana, an official language of South Africa. Comprising 3,565 tweets, the dataset was manually annotated in multiple batches by three native annotators, covering five sentiment labels including positive, negative, neutral and other categories, with 3,454 valid classified samples. The data was collected via the public Twitter API between 2021 and 2022, and underwent language identification and anonymization processing. Annotation was completed asynchronously and independently in seven batches using the LightTag annotation tool, and timestamp metadata for each annotation session was recorded to support quality auditing. This dataset aims to address the scarcity of NLP resources for African languages, serve as a training benchmark for sentiment classification models by analyzing the pattern of declining annotation quality over time, and promote the optimization of annotation activity design to enhance the reliability of low-resource language datasets.

提供机构：

比勒陀利亚大学·社会影响数据科学; 比勒陀利亚大学·非洲语言系; 帝国理工学院; 国立理工学院

创建时间：

2026-05-27

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，情感语料库的构建常受限于标注质量随时间的衰退，尤其对于低资源非洲语言，其标注过程鲜有深入的质量剖析。该数据集基于Setwana语种，通过Twitter API v2收集2021至2022年间包含关键词与位置过滤的推文，经AfroLID语言识别模型筛选，保留Setswana为前两位预测语言的内容。最终获得3,565条推文，并由三位母语为Setwana的大学生标注者，利用LightTag工具在七个批次中独立异步完成标注，每条推文被赋予正向、负向、中性、混合或不确定五个标签之一。所有用户名、提及等个人信息均以占位符替换，确保隐私安全。

使用方法

该数据集适用于三分类情感分类任务（正向、负向、中性）的模型训练与评估。用户可采用多数投票标签作为标准，按80/10/10比例划分训练、开发与测试集。基准实验表明，预训练多语言编码器（如AfroXLMR-base）经微调后macro-F1可提升29至43个百分点，而GPT-5在少样本设定下达到最佳性能（62.2 macro-F1）。此外，研究开放了完整的标注时间戳与分析代码，支持后续面向低资源语言的数据集质量审计与标注流程优化研究。

背景与挑战

背景概述

Setswana情感数据集由比勒陀利亚大学数据科学与社会影响团队联合多位非洲语言学者于2026年发布，旨在填补茨瓦纳语在自然语言处理领域的情感标注资源空白。该语言作为南非和博茨瓦纳的官方语言，拥有约800万使用者，但长期被主流基准测试所忽视。研究团队从Twitter API收集了3565条推文，由三名母语者在八轮批次中独立标注，并首次系统性地记录了每条标注的精确时间戳。这一工作不仅为低资源非洲语言情感分析提供了标准化评估基准，更揭示了多批次长周期标注任务中质量退化的结构性原因，对推动非洲语言NLP资源的公平性建设具有重要影响。

当前挑战

该数据集面临的核心挑战在于标注质量随时间推移的系统性衰退。研究揭示了时间同步性的主导作用：同一分钟内标注的推文达到近乎完美的κ=0.98，而间隔超过一天则骤降至κ=0.65，这源于异步标注结构的固有缺陷加之学术日程压力导致标注周期拉长。此外，两名标注者出现了显著的自动驾驶行为—相同标签连续运行长度递增至1.9，与κ值最大降幅的批次重合。负面与中性标签的混淆占全部不一致案例的72%，既反映了茨瓦纳语政治话语中隐晦评价的语言学内在歧义，也因后期批次的疲劳效应而加剧。构建过程中还面临LID语言识别歧义与token复杂度无关性等反直觉发现，凸显出需要批次数值监控与实时校准等低成本干预措施。

常用场景

经典使用场景

Setswana情感数据集专为低资源非洲语言的细粒度情感分析而构建，其核心用途在于训练和评估面向茨瓦纳语的三分类情感模型。该数据集包含3,565条经过三位母语标注者精心标注的推文，覆盖正面、负面与中性三种情感类别，为茨瓦纳语这一在自然语言处理领域长期被边缘化的语言提供了稀缺的高质量标注资源。研究者可利用该数据集对预训练语言模型进行微调或评估零样本、少样本学习能力，从而填补茨瓦纳语情感分析任务的空白，推动非洲语言在情感计算领域的研究进展。

解决学术问题

该数据集系统地解决了低资源语言语料库标注过程中质量退化这一长期被忽视的学术难题。通过详细记录每条推文的单次标注时间戳，数据集首次揭示了时间同步性是预测标注者间一致性（IAA）的最强因子：在1分钟内完成的标注其Kappa值高达0.98，而相隔超过一天的标注则降至0.65。这一发现挑战了以往依赖标注速度和文本复杂度解释质量下降的假设，为理解多批次标注中的疲劳效应、自动驾驶式标注行为以及标注日程设计对数据质量的影响提供了实证基础，推动了标注质量审计方法论的发展。

实际应用

在现实应用中，该数据集为茨瓦纳语社交媒体舆情监控系统提供了关键支撑。政府和企业在分析南非与博茨瓦纳地区民众对政策、公共服务或品牌的情感倾向时，可基于该数据集训练定制的分类器，自动识别推文中的正面、负面或中性情绪。数据集还服务于跨语言情感分析平台，通过微调多语言编码器（如AfroXLMR）实现高效的情感预测，帮助理解茨瓦纳语社区在公共卫生、政治事件等议题上的舆论动态，从而支持数据驱动的决策制定。

数据集最近研究