L3Cube-MahaEmotions

Name: L3Cube-MahaEmotions
Creator: 印度理工学院马德拉斯分校, 印度
Published: 2025-06-01 15:01:34
License: 暂无描述

arXiv2025-06-01 更新2025-06-05 收录

下载链接：

https://github.com/l3cube-pune/MarathiNLP/tree/main/L3Cube-MahaEmotions

下载链接

链接失效反馈

官方服务：

资源简介：

L3Cube-MahaEmotions 是一个高质量的马拉地语情感识别数据集，包含 11 种细粒度的情感标签。该数据集的训练数据使用大型语言模型 (LLMs) 进行合成标注，而验证集和测试集则由人工标注，以确保可靠的金标准基准。基于 MahaSent 数据集，我们应用了链式翻译 (CoTR) 提示技术，将马拉地语文本翻译成英语，并通过单个提示进行情感标注。GPT-4 和 Llama3-405B 被评估，由于标签质量优越，GPT-4 被选中用于训练数据标注。我们使用标准指标评估模型性能，并探索标签聚合策略（例如，并集、交集）。

L3Cube-MahaEmotions is a high-quality Marathi emotion recognition dataset containing 11 fine-grained emotion labels. Its training data was synthetically annotated using large language models (LLMs), while its validation and test sets were manually annotated to establish a reliable gold-standard benchmark. Built on the MahaSent dataset, we utilized the Chain-of-Translation (CoTR) prompting technique to translate Marathi text into English and conduct emotion annotation with a single prompt. Both GPT-4 and Llama3-405B were evaluated, and GPT-4 was ultimately selected for training data annotation due to its superior label quality. We adopted standard metrics to assess model performance and explored label aggregation strategies such as union and intersection.

提供机构：

印度理工学院马德拉斯分校, 印度

创建时间：

2025-06-01

搜集汇总

数据集介绍

构建方式

在低资源语言如马拉地语的情感识别研究中，数据稀缺是主要瓶颈。L3Cube-MahaEmotions数据集通过创新性地结合大语言模型（LLMs）合成标注与人工验证，构建了包含11类细粒度情感标签的高质量语料库。该研究以MahaSent数据集为基础，采用翻译链提示技术（CoTR），先将马拉地语句子译为英语，再利用GPT-4进行情感标注。验证集和测试集通过人工标注确保黄金标准，训练集则采用GPT-4生成标签，最终形成包含12k训练样本和1.5k测试/验证样本的完整数据集。这种混合标注策略既解决了人工标注成本高昂的问题，又通过CoTR技术将GPT-4的标注准确率提升了6%。

特点

作为首个专注于马拉地语细粒度情感识别的数据集，L3Cube-MahaEmotions具有鲜明的技术特色。其情感标签体系融合了Ekman基本情绪理论与Plutchik情绪轮模型，涵盖从基础情绪（如愤怒、恐惧）到复杂社交情绪（如尊重、讽刺）的11个类别。数据集采用双重质量保障机制：人工标注的测试集为模型评估提供可靠基准，而GPT-4生成的训练标签经过严格的交叉验证。特别值得注意的是，该数据集揭示了LLMs在低资源语言任务中的特殊优势——GPT-4在情感识别任务上直接超越了基于其生成标签微调的MahaBERT模型，这一发现为低资源NLP的研究范式提供了新的思考方向。

使用方法

该数据集支持多种研究场景的应用。对于模型训练，研究者可直接使用GPT-4标注的12k训练样本开发情感分类器，并通过1.5k人工标注测试集进行验证。在跨语言迁移学习中，CoTR技术生成的英译文本可作为中间表示，帮助多语言模型突破低资源语言的理解瓶颈。数据集还特别适用于LLMs能力研究：通过比较GPT-4、Llama3-405B等模型在相同标注任务上的表现，可以深入分析大语言模型对低资源语言的语义捕捉能力。所有数据以标准JSON格式发布，包含原始马拉地语文本、英语翻译、情感标签及置信度分数，支持HuggingFace平台直接加载使用。

背景与挑战

背景概述

L3Cube-MahaEmotions数据集由印度浦那计算机技术研究所和L3Cube实验室的研究团队于2025年创建，旨在解决马拉地语情感识别领域的数据稀缺问题。作为首个涵盖11种细粒度情感的马拉地语数据集，其创新性地采用链式翻译提示技术（CoTR）和大语言模型生成标注，同时保留人工验证集作为黄金标准。该数据集基于MahaSent语料库构建，通过GPT-4模型实现高效标注，显著提升了低资源语言环境下情感分类任务的基准水平。其发布填补了印度-雅利安语系情感计算的空白，为跨语言情感分析研究提供了重要基础设施。

当前挑战

该数据集面临双重挑战：在领域问题层面，马拉地语复杂的形态变化和文化特异性情感表达导致传统模型难以捕捉细微情绪差异，如将28%的惊讶语句误判为中性；在构建过程中，低资源语言的标注瓶颈迫使研究者采用合成标注策略，但发现BERT模型在GPT-4生成标签上微调后性能反降6.2%，揭示自动标注与模型适配间的复杂关系。此外，语言模型直接处理马拉地语的准确率较英语低15%，促使开发链式翻译标注框架以突破语言壁垒。

常用场景

经典使用场景

在自然语言处理领域，L3Cube-MahaEmotions数据集为马拉地语情感识别研究提供了重要支持。该数据集通过合成标注技术，结合大型语言模型（如GPT-4）和人工验证，构建了一个包含11种细粒度情感标签的高质量语料库。其经典使用场景包括情感分类模型的训练与评估，特别是在低资源语言环境下，研究者可利用该数据集验证跨语言迁移学习、多标签分类以及合成数据标注的有效性。数据集的设计充分考虑了马拉地语的语法复杂性和文化特异性，为相关研究提供了标准化基准。

解决学术问题

L3Cube-MahaEmotions数据集有效解决了低资源语言情感识别中的核心学术问题。针对马拉地语标注数据稀缺的挑战，该数据集通过链式翻译提示（CoTR）技术，将马拉地语句子翻译为英语后标注情感，显著提升了标注质量。实验表明，该方法使GPT-4的标注准确率提升6%，为低资源语言的情感计算研究提供了新范式。此外，数据集揭示了通用大语言模型在复杂情感识别任务中优于微调小模型的特性，这对优化低资源语言NLP模型架构具有重要启示。

衍生相关工作

该数据集衍生出多个经典研究方向，包括低资源语言合成标注方法优化、跨语言情感计算模型比较等。受其启发，研究者开发了针对印地语等语言的EmoInHindi多标签情感数据集，扩展了印度语言情感计算的覆盖范围。在模型架构方面，基于该数据集验证的CoTR技术被应用于Gemma、Mistral等新型大语言模型的低资源适配研究。此外，数据集支撑的MahaBERT-V2等专用模型推动了马拉地语NLP工具链的完善，为语法分析、多模态情感识别等下游任务奠定基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集