yor-sarc

Hugging Face2026-02-27 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/toheebadura/yor-sarc

下载链接

链接失效反馈

官方服务：

资源简介：

Yor-Sarc 是一个用于约鲁巴语（Yorùbá）讽刺检测的黄金标准数据集，约鲁巴语是一种声调丰富、形态复杂的非洲语言，使用人口超过5000万。该数据集旨在解决非洲自然语言处理（NLP）中高质量标注资源稀缺的问题，特别是在比喻性语言理解方面。数据集包含436个手动标注的约鲁巴语文本实例，用于二元讽刺分类。每个实例均以标准化约鲁巴语正字法书写（包含变音符号），并由三位母语者独立标注，标注结果为二元标签（0表示非讽刺，1表示讽刺）。数据集具有较高的标注者间一致性（Fleiss’ κ = 0.7660，83.3%的一致同意率），适用于讽刺检测、比喻性语言理解、情感分析、低资源NLP及非洲语言建模等研究任务。数据集还提供了标注者投票比例，支持软标签建模。Yor-Sarc的创建旨在为低资源环境下的讽刺检测系统提供文化基础扎实的基准，并推动声调语言的比喻性语言建模研究。

创建时间：

2026-02-24

原始信息汇总

Yor-Sarc 数据集概述

数据集基本信息

数据集名称: Yor-Sarc
简介: Yor-Sarc 是一个用于约鲁巴语（Yorùbá）讽刺检测的黄金标准数据集。约鲁巴语是一种声调丰富、形态复杂的低资源非洲语言，使用人口超过5000万。该数据集旨在解决非洲自然语言处理领域中高质量、带注释的比喻语言理解资源的稀缺问题。
语言: 约鲁巴语 (yo)
许可协议: CC-BY-4.0
数据量: 包含 436 个手动标注的约鲁巴语文本实例。

数据集详情

描述与特点

核心任务: 专注于细粒度的比喻语言理解，特别是讽刺检测。讽刺是一种依赖于语调、上下文和文化线索的语用复杂现象。
文本特征: 所有实例均采用标准约鲁巴语正字法书写（包含变音符号）。
标注信息: 每个实例由三位约鲁巴语母语者独立标注，采用二元标签（0 = 非讽刺，1 = 讽刺），并基于多数投票确定最终标签。数据集中保留了标注者一致性信息，以支持不确定性感知建模。
标注者一致性: 数据集具有较高的标注者间一致性：
- Fleiss’ κ = 0.7660
- 配对 Cohen’s κ = 0.6732–0.8743
- 一致同意率 = 83.3%

数据集结构

总实例数: 436
每条记录包含字段:
- text: 约鲁巴语句子（带变音符号）
- label: 基于多数投票的二元讽刺标签
- （可选）标注者投票比例，用于软标签建模
一致性分布:
- 83.26% 的实例为一致同意（3–0）
- 16.74% 的实例为多数同意（2–1）

预期用途

直接用途

该数据集适用于以下领域的研究：

讽刺检测
比喻语言理解
情感和情绪分析
低资源自然语言处理
非洲语言建模
跨语言迁移学习
不确定性感知和分歧感知建模

适用于以下模型的基准测试：

机器学习模型
深度学习架构
基于 Transformer 的模型
大语言模型

超出范围的用途

该数据集不应用于：

监控或用户画像

数据集创建

创建动机

讽刺检测研究主要由英语和其他高资源语言主导。尽管约鲁巴语具有丰富的语言特征和广泛的使用基础，但此前缺乏公开可用的黄金标准讽刺数据集。Yor-Sarc 的创建旨在：

提供一个基于文化的基准
支持非洲自然语言处理研究
鼓励在声调语言中进行比喻语言建模
实现在低资源环境下对讽刺检测系统的稳健评估

数据来源与处理

数据来源: 约鲁巴语新闻平台、社交媒体平台（X, Facebook, Instagram, YouTube 字幕）以及众包贡献。
处理流程: 所有文本在标注前都经过清洗和标准化。具体包括网络爬取、手动收集和过滤、标准化正字法规范化、三位母语者独立标注、多数投票确定最终标签，并使用 Cohen’s κ 和 Fleiss’ κ 计算一致性指标。

标注过程

标注人员: 三位熟悉方言变体的、具备语言能力的约鲁巴语母语者。标注者独立工作并获得公平报酬。
标注过程: 采用二元讽刺标签，标注指南经过迭代细化，并进行统计一致性验证。

个人与敏感信息

数据集包含公开可用和自愿贡献的文本。已移除必要的个人身份信息，不包含敏感元数据。

偏见、风险与局限性

数据集规模相对较小（436个实例）
领域覆盖不全面
讽刺解释受文化理解影响

引用信息

如果使用 Yor-Sarc，请引用： bibtex @misc{jimoh2026yorsarcgoldstandarddatasetsarcasm, title={Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language}, author={Toheeb Aduramomi Jimoh and Tabea De Wille and Nikola S. Nikolov}, year={2026}, eprint={2602.18964}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.18964} }

搜集汇总

数据集介绍

构建方式

在低资源非洲语言自然语言处理领域，高质量标注资源的稀缺性长期制约着相关研究进展。Yor-Sarc数据集的构建旨在为约鲁巴语这一拥有超过五千万使用者的声调丰富语言，建立一个用于讽刺检测的黄金标准基准。其构建过程始于从约鲁巴语新闻平台、社交媒体及众包贡献中收集原始文本，随后进行清洗与标准化正字法处理。核心环节是由三位母语为约鲁巴语的标注者独立完成二元讽刺标签标注，并基于多数投票机制确定最终标签，同时计算了Fleiss’ κ与Cohen’s κ等统计指标以验证标注者间的一致性，确保了数据集的可靠性与文化适切性。

特点

该数据集作为约鲁巴语讽刺检测的首个公开黄金标准资源，其显著特点在于专注于细粒度的比喻性语言理解，而非粗粒度的情感分析。数据集包含436个经过人工标注的文本实例，均采用带变音符号的标准约鲁巴语正字法书写，并提供了基于多数投票的二元分类标签。尤为重要的是，数据集保留了三位独立标注者的投票比例，这为不确定性感知建模和基于分歧的学习方法提供了可能。其标注者间一致性较高，Fleiss’ κ达到0.766， unanimous agreement比例高达83.3%，为低资源环境下的模型评估提供了稳健的基准。

使用方法

Yor-Sarc数据集主要服务于自然语言处理研究，尤其适用于低资源非洲语言建模与比喻性语言理解领域。研究者可直接将其用于讽刺检测、情感分析等文本分类任务的模型训练与评估，适用于机器学习、深度学习及基于Transformer的大语言模型等多种架构的基准测试。在具体应用中，可利用提供的文本和多数投票标签进行监督学习，亦可利用可选的标注者投票比例进行软标签建模或不确定性量化研究。此外，该数据集亦可用于跨语言迁移学习研究，以探索从高资源语言到约鲁巴语的知识迁移效果，推动非洲语言计算语言学的发展。

背景与挑战

背景概述

在自然语言处理领域，针对低资源语言的语料库建设长期面临资源匮乏的困境，尤其是对于具有丰富形态和声调特征的非洲语言。Yor-Sarc数据集于2026年由Toheeb Aduramomi Jimoh、Tabea De Wille和Nikola S. Nikolov共同创建，旨在为约鲁巴语——一种拥有超过五千万使用者的语言——提供高质量的讽刺检测基准资源。该数据集聚焦于细粒度的比喻性语言理解，特别是讽刺这一依赖语境、语调与文化背景的复杂语用现象，通过436条经过人工标注的文本实例，为低资源自然语言处理研究提供了关键的数据支持，推动了非洲语言建模与跨语言迁移学习的发展。

当前挑战

讽刺检测任务本身在自然语言处理中即面临显著挑战，因其高度依赖语调、上下文与文化隐含信息，这些要素在文本中往往难以直接捕捉。对于约鲁巴语这类低资源语言，构建高质量数据集的过程更遭遇多重困难：首先，公开可用的标注资源极为稀缺，需要从新闻平台、社交媒体等多源渠道进行数据收集与清洗；其次，为确保标注的准确性与文化适切性，必须依赖三位母语者进行独立标注，并通过严格的统计指标（如Fleiss' κ）验证标注者间一致性，这一过程成本高昂且耗时。此外，数据集规模相对有限，且领域覆盖尚未全面，这些因素共同构成了模型训练与评估的实际瓶颈。

常用场景

经典使用场景

在低资源非洲语言自然语言处理领域，Yor-Sarc数据集为讽刺检测研究提供了关键基准。该数据集聚焦于约鲁巴语这一拥有超过五千万使用者的声调丰富语言，通过436个手动标注的文本实例，支持二进制讽刺分类任务。其经典应用场景在于评估机器学习、深度学习及大型语言模型在低资源环境下的讽刺识别能力，尤其适用于跨语言迁移学习和不确定性建模研究，为约鲁巴语乃至更广泛的非洲语言理解奠定了实验基础。

衍生相关工作

围绕Yor-Sarc数据集，已衍生出多项经典研究工作，主要集中在低资源语言讽刺检测模型的创新上。例如，研究者利用该数据集探索了基于Transformer的跨语言预训练模型在约鲁巴语上的适配效果，以及如何通过标注者分歧信息进行软标签建模以提升模型鲁棒性。这些工作不仅扩展了讽刺检测的理论框架，还促进了针对非洲语言特性的神经网络架构设计，为后续在类似低资源语言中构建比喻性语言理解系统提供了可复现的方法论和比较基准。

数据集最近研究