ukr-emotions-per-annotator

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/ukr-detect/ukr-emotions-per-annotator

下载链接

链接失效反馈

官方服务：

资源简介：

EmoBench-UA是一个乌克兰语文本情感检测数据集，包含喜悦、愤怒、恐惧、厌恶、惊讶、悲伤或无情感的基本情感类型。数据集通过Toloka.ai平台收集，并经过长度过滤、毒性过滤和情感文本预选的预处理步骤。标注由母语为乌克兰语的标注者完成，并采取了严格的质量控制措施。数据集分为训练集、开发集和测试集。

创建时间：

2025-09-17

原始信息汇总

EmoBench-UA: Emotions Detection Dataset in Ukrainian Texts

数据集概述

名称: EmoBench-UA
语言: 乌克兰语
任务类型: 文本分类
标签类型: 基本情绪（Joy、Anger、Fear、Disgust、Surprise、Sadness、None）
许可证: CC-BY-4.0
数据规模: 1K<n<10K

数据内容

每个样本包含5位标注者的标注结果
支持多标签情绪检测（一个文本可包含多种情绪或没有情绪）
None标签表示所有情绪类别标注均为0的文本

数据收集

数据来源: 基于开源的乌克兰语推文语料库（https://github.com/kateryna-bobrovnyk/ukr-twi-corpus）
标注平台: Toloka.ai众包平台
预处理步骤:
- 长度过滤：去除过短（单词数<5）和过长（单词数≥50）的文本
- 毒性过滤：使用毒性分类器（https://huggingface.co/ukr-detect/ukr-toxicity-classifier）过滤毒性内容
- 情绪文本预选：使用英语情绪分类器（DistillRoBERTa-Emo-EN）对翻译文本进行预筛选

质量控制

标注者为乌克兰语母语者
标注前必须完成培训和考试
实施标注者参与度监控和休息机制
随机注入控制任务进行质量检查
每个样本由5位标注者标注
仅保留置信度得分90%以上的实例

数据集统计

总样本量: 4949个标注实例
标注一致性: Krippendorffs alpha系数0.85
数据划分:
- 训练集: 50%
- 开发集: 5%
- 测试集: 45%

引用信息

bibtex @article{dementieva2025emobench, title={EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian}, author={Dementieva, Daryna and Babakov, Nikolay and Fraser, Alexander}, journal={arXiv preprint arXiv:2505.23297}, year={2025} }

联系方式

Daryna Dementieva: https://huggingface.co/dardem
Nikolay Babakov: https://huggingface.co/NiGuLa

搜集汇总

数据集介绍

构建方式

在乌克兰文本情感分析领域，EmoBench-UA数据集的构建体现了严谨的学术流程。数据源自公开的乌克兰推文语料库，经过多阶段筛选：首先排除过短或过长的文本以保持信息密度，随后利用开源毒性分类器过滤不当内容，并借助英语情感分类器与机器翻译技术对文本进行情感倾向预选，以平衡情感分布。标注工作通过Toloka.ai众包平台完成，仅招募乌克兰母语者，并实施培训考核、动态禁言机制及控制任务注入等质量控制策略，每条样本由五名标注者独立完成，最终仅保留置信度达90%的高质量标注结果。

特点

作为乌克兰首个细粒度情感检测数据集，EmoBench-UA涵盖喜悦、愤怒、恐惧、厌恶、惊讶、悲伤及无情感七类标签，支持多标签分类任务。其独特价值在于保留每位标注者的原始标注记录，为研究标注者间差异与情感主观性提供了宝贵资源。数据集包含4949条样本，标注者间一致性系数Krippendorff's alpha高达0.85，体现了优异的标注可靠性。数据按50%/5%/45%的比例划分为训练集、开发集与测试集，为模型训练与评估提供结构化支持。

使用方法

该数据集适用于乌克兰语情感分类模型的训练与基准测试。研究者可直接加载HuggingFace平台提供的分划数据，利用多标签分类框架进行模型开发。标注者层级数据允许深入分析标注分歧，适用于研究标注不确定性或开发共识建模算法。用户需遵循CC-BY-4.0许可协议，并在学术研究中引用相关论文以尊重知识产权。数据集的设计兼顾学术严谨性与实践便利性，为乌克兰自然语言处理社区提供了关键基础设施。

背景与挑战

背景概述

情感计算作为自然语言处理的重要分支，其发展依赖于高质量的多语言情感标注数据集。EmoBench-UA由慕尼黑大学研究人员Daryna Dementieva等人于2025年创建，是首个专门针对乌克兰语文本的情感检测基准数据集。该数据集聚焦于识别文本中六种基本情绪（喜悦、愤怒、恐惧、厌恶、惊讶、悲伤）及中性状态，填补了斯拉夫语系语言在细粒度情感分析领域的空白。通过严谨的多重质量控制机制和本土化标注策略，该数据集为乌克兰语NLP研究提供了关键基础设施，显著推动了东欧语言情感计算模型的发展。

当前挑战

乌克兰语情感分析面临标注一致性挑战，需解决文化特定情感表达的歧义性问题。数据构建过程中遭遇低质量文本过滤难题，包括短文本语义不足与长文本情感稀释现象。为控制标注质量，研究团队实施了本土化标注者培训体系与动态监控机制，通过预筛选情绪文本与毒性过滤确保数据纯净度。多标注者分歧处理要求开发基于90%置信度的样本选择策略，最终达成0.85的Krippendorff's alpha标注一致性系数，但文化特定情感表达的细粒度标注仍存在挑战。

常用场景

经典使用场景

在情感计算研究领域，EmoBench-UA数据集为乌克兰语文本情感分析提供了重要资源。该数据集最经典的使用场景是训练和评估多标签情感分类模型，研究者通过其精细的标注数据开发能够识别喜悦、愤怒、恐惧、厌恶、惊讶、悲伤及无情感状态的分类系统。每个文本样本由五位母语标注者独立标注，确保了标注质量的可靠性，为模型训练提供了高质量的基础数据。

解决学术问题

该数据集有效解决了乌克兰语情感分析资源匮乏的学术难题，为低资源语言的情感计算研究提供了基准数据。通过严格的标注质量控制和高一致性标注方案（Krippendorff's α=0.85），它显著提升了跨语言情感分类模型的性能评估可靠性。该数据集填补了斯拉夫语系情感分析研究的空白，为语言特异性情感表达研究提供了重要实证基础。

衍生相关工作

该数据集已衍生出多项重要研究工作，包括基于多任务学习的乌克兰语情感分析框架和跨语言情感迁移学习模型。研究者利用其多标注者设计开发了标注质量评估算法，并在此基础上构建了乌克兰语情感计算基准测试平台。这些工作显著推动了乌克兰语自然语言处理技术的发展，为后续低资源语言情感分析研究提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集