five

Setswana Sentiment Dataset

收藏
arXiv2026-05-27 更新2026-05-28 收录
下载链接:
https://arxiv.org/abs/2605.27239v1
下载链接
链接失效反馈
官方服务:
资源简介:
该Setswana情感数据集是由比勒陀利亚大学等机构构建的一个低资源语言标注资源,专门针对南非官方语言Setswana的推特文本进行情感分析。数据集包含3,565条推文,由三位母语标注者进行多批次人工标注,涵盖积极、消极、中性等五类情感标签,其中有效分类数据达3,454条,数据来源于2021年至2022年间的公开推特API,并经过语言识别和匿名化处理。创建过程采用LightTag标注工具,分七批次异步独立完成,并记录了每次标注的时间戳元数据,以支持质量审计。该数据集旨在解决非洲语言NLP资源稀缺问题,通过分析标注质量随时间下降的规律,为情感分类模型提供训练基准,并推动标注活动设计优化以提升低资源语言数据集的可靠性。

This Setswana sentiment dataset is a low-resource language annotation resource developed by the University of Pretoria and other institutions, specifically designed for sentiment analysis of Twitter texts in Setswana, an official language of South Africa. Comprising 3,565 tweets, the dataset was manually annotated in multiple batches by three native annotators, covering five sentiment labels including positive, negative, neutral and other categories, with 3,454 valid classified samples. The data was collected via the public Twitter API between 2021 and 2022, and underwent language identification and anonymization processing. Annotation was completed asynchronously and independently in seven batches using the LightTag annotation tool, and timestamp metadata for each annotation session was recorded to support quality auditing. This dataset aims to address the scarcity of NLP resources for African languages, serve as a training benchmark for sentiment classification models by analyzing the pattern of declining annotation quality over time, and promote the optimization of annotation activity design to enhance the reliability of low-resource language datasets.
提供机构:
比勒陀利亚大学·社会影响数据科学; 比勒陀利亚大学·非洲语言系; 帝国理工学院; 国立理工学院
创建时间:
2026-05-27
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,情感语料库的构建常受限于标注质量随时间的衰退,尤其对于低资源非洲语言,其标注过程鲜有深入的质量剖析。该数据集基于Setwana语种,通过Twitter API v2收集2021至2022年间包含关键词与位置过滤的推文,经AfroLID语言识别模型筛选,保留Setswana为前两位预测语言的内容。最终获得3,565条推文,并由三位母语为Setwana的大学生标注者,利用LightTag工具在七个批次中独立异步完成标注,每条推文被赋予正向、负向、中性、混合或不确定五个标签之一。所有用户名、提及等个人信息均以占位符替换,确保隐私安全。
使用方法
该数据集适用于三分类情感分类任务(正向、负向、中性)的模型训练与评估。用户可采用多数投票标签作为标准,按80/10/10比例划分训练、开发与测试集。基准实验表明,预训练多语言编码器(如AfroXLMR-base)经微调后macro-F1可提升29至43个百分点,而GPT-5在少样本设定下达到最佳性能(62.2 macro-F1)。此外,研究开放了完整的标注时间戳与分析代码,支持后续面向低资源语言的数据集质量审计与标注流程优化研究。
背景与挑战
背景概述
Setswana情感数据集由比勒陀利亚大学数据科学与社会影响团队联合多位非洲语言学者于2026年发布,旨在填补茨瓦纳语在自然语言处理领域的情感标注资源空白。该语言作为南非和博茨瓦纳的官方语言,拥有约800万使用者,但长期被主流基准测试所忽视。研究团队从Twitter API收集了3565条推文,由三名母语者在八轮批次中独立标注,并首次系统性地记录了每条标注的精确时间戳。这一工作不仅为低资源非洲语言情感分析提供了标准化评估基准,更揭示了多批次长周期标注任务中质量退化的结构性原因,对推动非洲语言NLP资源的公平性建设具有重要影响。
当前挑战
该数据集面临的核心挑战在于标注质量随时间推移的系统性衰退。研究揭示了时间同步性的主导作用:同一分钟内标注的推文达到近乎完美的κ=0.98,而间隔超过一天则骤降至κ=0.65,这源于异步标注结构的固有缺陷加之学术日程压力导致标注周期拉长。此外,两名标注者出现了显著的自动驾驶行为—相同标签连续运行长度递增至1.9,与κ值最大降幅的批次重合。负面与中性标签的混淆占全部不一致案例的72%,既反映了茨瓦纳语政治话语中隐晦评价的语言学内在歧义,也因后期批次的疲劳效应而加剧。构建过程中还面临LID语言识别歧义与token复杂度无关性等反直觉发现,凸显出需要批次数值监控与实时校准等低成本干预措施。
常用场景
经典使用场景
Setswana情感数据集专为低资源非洲语言的细粒度情感分析而构建,其核心用途在于训练和评估面向茨瓦纳语的三分类情感模型。该数据集包含3,565条经过三位母语标注者精心标注的推文,覆盖正面、负面与中性三种情感类别,为茨瓦纳语这一在自然语言处理领域长期被边缘化的语言提供了稀缺的高质量标注资源。研究者可利用该数据集对预训练语言模型进行微调或评估零样本、少样本学习能力,从而填补茨瓦纳语情感分析任务的空白,推动非洲语言在情感计算领域的研究进展。
解决学术问题
该数据集系统地解决了低资源语言语料库标注过程中质量退化这一长期被忽视的学术难题。通过详细记录每条推文的单次标注时间戳,数据集首次揭示了时间同步性是预测标注者间一致性(IAA)的最强因子:在1分钟内完成的标注其Kappa值高达0.98,而相隔超过一天的标注则降至0.65。这一发现挑战了以往依赖标注速度和文本复杂度解释质量下降的假设,为理解多批次标注中的疲劳效应、自动驾驶式标注行为以及标注日程设计对数据质量的影响提供了实证基础,推动了标注质量审计方法论的发展。
实际应用
在现实应用中,该数据集为茨瓦纳语社交媒体舆情监控系统提供了关键支撑。政府和企业在分析南非与博茨瓦纳地区民众对政策、公共服务或品牌的情感倾向时,可基于该数据集训练定制的分类器,自动识别推文中的正面、负面或中性情绪。数据集还服务于跨语言情感分析平台,通过微调多语言编码器(如AfroXLMR)实现高效的情感预测,帮助理解茨瓦纳语社区在公共卫生、政治事件等议题上的舆论动态,从而支持数据驱动的决策制定。
数据集最近研究
最新研究方向
在低资源非洲语言情感语料构建领域,最新研究聚焦于标注质量衰减的时序动因与可解释性分析。基于Setswana情感数据集的系统实验揭示,标注者间一致性并非由标注速度或推文语言复杂度驱动,而是显著受制于时间同步性——同步标注(一分钟内)的Kappa值接近完美(0.98),而跨日标注则骤降至0.65。该发现挑战了传统“速度-质量”假设,将研究重心转向标注者疲劳产生的“自动驾驶”行为模式(同标签连续序列增长)与批次间调度碎片化带来的语义漂移。这一方法论突破不仅为非洲语言NLP资源开发提供了可复现的质量审计框架,更推动了标注流程从聚合指标报告向动态监控、批次约束与校准项植入的范式转型,其学术价值在非洲NLP资源爆发式增长的当下尤为凸显。
相关研究论文
  • 1
    Temporal Simultaneity Predicts Annotation Quality in Sentiment Corpora比勒陀利亚大学·社会影响数据科学; 比勒陀利亚大学·非洲语言系; 帝国理工学院; 国立理工学院 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作