setswana-offensive-977

Hugging Face2025-12-04 更新2025-12-05 收录

下载链接：

https://huggingface.co/datasets/mopatik/setswana-offensive-977

下载链接

链接失效反馈

官方服务：

资源简介：

Setswana冒犯性语言数据集（977）是一个用于二分类冒犯性语言检测任务的数据集，包含977个茨瓦纳语（使用于博茨瓦纳、南非和纳米比亚）的实例，其中477个为冒犯性语言，500个为非冒犯性语言。数据集采用80/20的保留协议进行分割，并在80%的训练数据上进行5折交叉验证。标注标签为0（非冒犯性）和1（冒犯性），标注者间一致性κ值为0.86，显示高度一致。数据集文件包括train.csv、test.csv等，可以通过HuggingFace的load_dataset函数加载。

创建时间：

2025-12-04

原始信息汇总

Setswana Offensive Language Dataset (977) 概述

数据集基本信息

任务类型：文本分类（二元冒犯性语言检测）
标签定义：0 = 非冒犯性，1 = 冒犯性
语言：Setswana（语言代码：tn/tsn；使用地区：博茨瓦纳/南非/纳米比亚）
数据规模：977条实例（冒犯性：477条；非冒犯性：500条）
许可证：CC BY 4.0

数据划分与评估

划分协议：80/20保留法（无标签、未增强）。在80%的训练集上进行5折交叉验证。
评估方式：在无标签的保留集上进行评估，以模拟实际部署场景。

标注信息

标注内容：标签（0或1）及语义触发短语（用于训练时实验）。
标注者间一致性：科恩卡帕系数 κ = 0.86（一致性较高）。

文件列表

train.csv：训练集文件。
test.csv：测试集文件。
full.csv：完整数据集文件（包含split列）。
DATASTATEMENT.md：数据声明文件。
LICENSE：许可证文件。
checksums.sha256：校验和文件（可选）。

加载方式

可通过Hugging Face datasets库加载： python from datasets import load_dataset ds = load_dataset("mopatik/setswana-offensive-977")

或直接使用CSV文件加载。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对低资源语言的冒犯性语言检测数据集尤为珍贵。Setswana冒犯性语言数据集（977）的构建过程体现了严谨的学术规范。数据采集后，通过人工标注流程对977条茨瓦纳语文本实例进行分类，标注体系为二元标签（0表示非冒犯性，1表示冒犯性）。为确保标注质量，研究团队计算了科恩卡帕系数，其值为0.86，达到了“实质性一致”的统计学标准，这为数据集的可靠性奠定了坚实基础。数据集进一步采用80/20的保留划分法，其中80%用于训练并支持五折交叉验证，20%作为未经数据增强的标签无关测试集，以模拟真实部署环境。

特点

该数据集的核心特点在于其针对性与规范性。作为专注于茨瓦纳语这一特定语言的资源，它填补了非洲语言在冒犯性内容检测领域的空白。数据集规模虽为977条，但类别分布均衡，包含477条冒犯性文本与500条非冒犯性文本，为模型训练提供了良好的基础。其标注不仅包含句子级分类标签，还提供了语义触发短语的跨度信息，为细粒度的分析提供了可能。数据集的划分策略科学，测试集严格保持标签无关性，有效避免了数据泄露，确保了评估结果能够真实反映模型在未知数据上的泛化能力。

使用方法

对于研究人员而言，该数据集的使用流程清晰便捷。最直接的方式是通过Hugging Face的`datasets`库进行加载，执行`load_dataset("mopatik/setswana-offensive-977")`指令即可获取已划分的训练集与测试集。若需进行自定义处理，也可直接读取提供的`train.csv`与`test.csv`文件。数据集适用于二元文本分类任务，主要用于训练和评估茨瓦纳语冒犯性语言检测模型。在使用过程中，建议研究者遵循配套的`DATASTATEMENT.md`文件以了解数据的社会伦理背景，并严格遵守`CC-BY-4.0`许可协议的规定，确保应用的合规性与伦理性。

背景与挑战

背景概述

在数字时代，社交媒体与在线平台的普及使得网络言论的监管成为全球性议题，尤其在资源稀缺语言领域，针对冒犯性内容的自动检测技术面临显著挑战。Setswana Offensive Language Dataset (977) 由研究人员于近年构建，专注于博茨瓦纳、南非及纳米比亚等地使用的塞茨瓦纳语，旨在通过文本分类任务识别冒犯性言论。该数据集包含977条标注实例，采用严格的80/20保留划分与五折交叉验证协议，标注者间一致性系数κ达0.86，体现了较高的可靠性。其创建不仅填补了非洲本土语言在自然语言处理研究中的空白，还为跨文化语境下的内容安全与伦理计算提供了关键数据支持，推动了语言技术在全球南方的包容性发展。

当前挑战

该数据集致力于解决塞茨瓦纳语中冒犯性语言检测的领域挑战，包括识别文化特定语境下的隐晦侮辱、俚语及多义表达，这些元素在低资源语言中往往缺乏标准化处理工具。构建过程中，研究人员面临数据稀缺性难题，塞茨瓦纳语的数字化文本有限，需通过人工收集与标注扩展语料规模；同时，确保标注质量涉及跨地区方言变体的语义一致性，以及避免主观偏见对标签的影响。此外，数据集规模较小（不足千条实例）可能限制模型泛化能力，而部署时的标签无关评估要求进一步加剧了现实应用中的鲁棒性测试难度。

常用场景

经典使用场景

在自然语言处理领域，针对低资源语言的文本分类研究常面临数据稀缺的挑战。Setswana Offensive Language Dataset (977) 为茨瓦纳语的冒犯性语言检测提供了基准资源，其经典使用场景集中于二元分类任务，即区分文本是否具有冒犯性。该数据集通过精心标注的977个实例，支持模型在茨瓦纳语这一非洲南部重要语言上进行训练与评估，尤其适用于探索小样本学习与跨语言迁移方法，以应对低资源语言处理中的泛化难题。

解决学术问题

该数据集直接应对了自然语言处理中低资源语言冒犯性内容检测的学术研究问题。茨瓦纳语作为使用人口众多但数字资源匮乏的语言，长期缺乏高质量的标注数据，限制了相关伦理与安全研究的发展。此数据集通过提供高标注一致性（κ=0.86）的样本，解决了模型训练与评估的数据瓶颈，促进了公平性、偏见缓解及语言多样性保护等核心议题的实证探索，为构建包容性人工智能系统奠定了数据基础。

衍生相关工作

围绕此数据集，已衍生出多项经典研究工作，主要集中在低资源语言处理与冒犯性检测的交叉领域。例如，研究者利用其进行跨语言迁移学习实验，比较预训练模型在茨瓦纳语上的微调效果；亦有工作探索数据增强策略以克服样本量限制，或结合语义触发短语分析冒犯性语言的语言学特征。这些研究不仅推动了茨瓦纳语NLP工具的开发，也为其他低资源语言的类似任务提供了方法论参考。

以上内容由遇见数据集搜集并总结生成