EMOBENCH-UA

Name: EMOBENCH-UA
Creator: 慕尼黑工业大学
Published: 2025-05-29 17:49:57
License: 暂无描述

arXiv2025-05-29 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/ukrdetect/ukr-emotions-binary

下载链接

链接失效反馈

官方服务：

资源简介：

EMOBENCH-UA 是首个用于乌克兰文本情感检测的标注数据集，它基于乌克兰推文语料库，经过多阶段筛选和高质量标注流程创建。该数据集包含 4949 个标注实例，涵盖喜悦、恐惧、愤怒、悲伤、厌恶、惊讶和无情感等类别，为非主流语言的情感分类任务提供了宝贵资源。

提供机构：

慕尼黑工业大学

创建时间：

2025-05-29

搜集汇总

数据集介绍

构建方式

EMOBENCH-UA数据集的构建采用了多阶段筛选与高质量众包标注相结合的创新方法。研究团队首先从公开的乌克兰语推特语料库中，通过文本长度过滤（5-50词）、毒性内容筛查（基于开源分类器）及情感预选（借助英文情感分类器翻译筛选）三重机制，精选出5,000条潜在情感文本。标注流程依托Toloka.ai平台实施，采用双项目任务分解策略（恐惧/惊讶/厌恶 vs 愤怒/快乐/悲伤）降低认知负荷，每个文本由5名通过语言测试和培训考核的标注者独立标注，并设置随机质量控制任务、标注速度监控及疲劳中断机制，最终仅保留标注置信度≥90%的样本，确保数据的高信度（Krippendorff's α=0.85）。

使用方法

该数据集支持多标签情感分类任务的端到端评估，研究者可采用三种典型范式：1）基于语言特征的基线方法（如情感关键词匹配、TF-IDF+逻辑回归），适用于资源受限场景；2）Transformer编码器微调（推荐乌克兰专用UKR-RoBERTa或跨语言XLM-RoBERTa-large），需注意学习率调优（1E-5最佳）；3）大语言模型提示工程（如DeepSeek-V3），建议采用英/乌双语提示模板以提升性能。实验表明，合成数据增强（英-乌翻译）对愤怒类检测有增益，但原生数据训练的模型整体更优。数据集已开源于HuggingFace平台，包含标注指南和最优模型，支持学术与工业界开展乌克兰语情感计算研究。

背景与挑战

背景概述

EMOBENCH-UA是由慕尼黑工业大学、圣地亚哥德孔波斯特拉大学和慕尼黑机器学习中心的研究团队于2025年推出的首个乌克兰语情感检测基准数据集。该数据集填补了乌克兰自然语言处理领域在情感分类任务上的空白，其标注方案基于Ekman提出的基本情感理论框架，通过众包平台Toloka.ai采集了4,949条高质量标注的社交媒体文本。作为乌克兰语NLP资源建设的重要里程碑，该数据集为研究跨语言情感迁移、低资源语言模型优化等核心问题提供了关键实验基础，对东斯拉夫语系的情感计算研究具有开创性意义。

当前挑战

该数据集面临双重挑战：在领域问题上，乌克兰语复杂的形态变化和独特的文化语境使情感标注存在主观歧义，特别是对'愤怒'和'厌恶'等细粒度情绪的识别准确率较英语基准低17-23%；在构建过程中，需解决标注质量控制（采用五重标注和90%置信度过滤）、数据不平衡（'喜悦'和'悲伤'占比达38%）以及低毒性内容筛选等难题。此外，基于翻译的跨语言迁移方法在'惊讶'类别上表现较差，反映出文化特定情感表达的本地化挑战。

常用场景

经典使用场景

EMOBENCH-UA数据集在情感计算领域具有广泛的应用价值，尤其在乌克兰语文本情感分类任务中表现突出。该数据集通过众包平台Toloka.ai进行高质量标注，涵盖了六种基本情感（喜悦、恐惧、愤怒、悲伤、厌恶、惊讶）以及无情感标签。其经典使用场景包括社交媒体文本情感分析、跨语言情感检测模型训练以及乌克兰语自然语言处理研究。数据集的多标签分类特性使其能够捕捉文本中复杂的情感组合，为研究者提供了丰富的实验材料。

解决学术问题

EMOBENCH-UA解决了乌克兰语情感分类领域缺乏公开基准数据集的学术空白。该数据集为研究者提供了首个手动标注的乌克兰语情感分类基准，支持从语言学基线方法到大型语言模型（LLMs）的多种技术验证。其意义在于推动了非主流语言情感计算研究的发展，并揭示了跨语言迁移技术在低资源语言中的局限性。通过系统评估不同模型在乌克兰语情感分类任务中的表现，该数据集为后续语言特异性模型的开发提供了重要参考。

实际应用

在实际应用层面，EMOBENCH-UA可广泛应用于乌克兰语社交媒体监控、客户服务情感分析以及心理健康辅助诊断等领域。例如，企业可利用该数据集训练的模型分析乌克兰用户的产品评论情感倾向；医疗机构可通过情感检测识别潜在的心理健康风险。数据集的标注质量控制和多情感标签设计使其特别适合需要细粒度情感分析的真实场景，为乌克兰语地区的数字化服务提供了关键技术支撑。

数据集最近研究