SemEval-2025 Task 11

arXiv2025-03-10 更新2025-02-19 收录

下载链接：

https://github.com/emotion-analysis-project/SemEval2025-Task11

下载链接

链接失效反馈

官方服务：

资源简介：

SemEval-2025任务11数据集是由多个研究机构合作创建的，包含超过30种语言，主要针对低资源语言。该数据集由超过100,000个文本实例构成，这些实例被标注为六种情感类别，并伴有情感强度标注。数据来源于社交媒体、个人叙述、演讲、文学文本和新闻等。数据集旨在填补低资源语言在情感识别资源方面的空白，并用于促进跨语言的情感检测研究。

The SemEval-2025 Task 11 Dataset was collaboratively created by multiple research institutions. It covers over 30 languages, with a primary focus on low-resource languages. The dataset comprises more than 100,000 text instances, which are annotated with six sentiment categories along with sentiment intensity annotations. The data is sourced from diverse domains including social media, personal narratives, speeches, literary texts, and news articles. This dataset aims to fill the gap in sentiment analysis resources for low-resource languages and promote cross-lingual sentiment detection research.

提供机构：

Imperial College London, Bayero University Kano, Cardiff University, DSFSI, University of Pretoria, University of Hamburg, University of Göttingen, Uppsala University, University of Melbourne, Instituto Politécnico Nacional, Wollo University, Northeastern University, IIIT Hyderabad, University of Alberta, MILA, McGill University, Canada CIFAR AI Chair, MBZUAI, LIACC, FEUP, University of Porto, Sailplane AI, Bahir Dar University, Santa Clara University, Skoltech, AIRI, National Research Council Canada

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

BRIGHTER数据集的构建涉及了28种不同语言的多标签情感标注数据集，主要针对低资源语言，覆盖了非洲、亚洲、东欧和拉丁美洲的地区。数据集的实例来自各种领域，并由流利的演讲者进行标注。数据收集和标注过程面临的主要挑战包括选择合适的数据来源、招募合格的标注者以及确保数据质量。在数据收集阶段，BRIGHTER采用了多种数据源，包括社交媒体帖子、个人叙述、演讲、文学文本和新闻数据。对于一些语言，如印地语和马拉地语，数据集是从零开始创建的，由标注者根据特定主题生成情感句子。在标注过程中，标注者被要求选择所有适用于给定文本的情感类别，并对所选情感进行强度评分，强度分为0到3四个等级。为了保证标注的可靠性，使用了Split-Half Class Match Percentage (SHCMP)来评估标注的一致性。

特点

BRIGHTER数据集的主要特点包括：1) 覆盖28种不同语言，其中大部分是低资源语言，旨在缩小情感识别研究在高资源语言和低资源语言之间的差距；2) 每个实例都是多标签的，包括 joy、sadness、anger、fear、surprise、disgust 和 none 六种情感类别；3) 实例包括 0 到 3 四个等级的强度评分，以反映情感表达的强度；4) 数据集包括了各种领域的数据，如社交媒体、新闻、文学等，以提供更全面的情感表达样本；5) 注重质量控制和标注一致性，通过 SHCMP 等指标评估标注的可靠性。

使用方法

使用BRIGHTER数据集时，研究人员可以进行单语言和多语言的情感识别实验，以及情感强度预测。数据集可以用于训练情感识别模型，研究情感表达的文化差异，以及开发更包容的数字工具。使用数据集时，研究人员需要考虑情感的主观性和文化敏感性，并认识到数据集可能存在的偏见。此外，数据集的标注指南和单个标注信息也公开提供，以供进一步研究。在使用数据集时，应谨慎考虑伦理问题，避免将模型用于高风险应用，如健康领域，除非有专家监督。

背景与挑战

背景概述

BRIGHTER数据集是一个多标签情感标注数据集，包含28种不同语言的实例。该数据集主要关注低资源语言，覆盖了非洲、亚洲、东欧和拉丁美洲等地区，数据来源包括演讲、社交媒体、新闻、文学和评论等多个领域。BRIGHTER数据集的创建是为了填补低资源语言在情感识别研究方面的空白，并推动文本情感识别领域的发展。该数据集的创建由Imperial College London、Bayero University Kano、Cardiff University等多个机构的研究人员共同完成，对相关领域的研究和应用具有重要意义。

当前挑战

BRIGHTER数据集在构建过程中面临了多个挑战。首先，由于低资源语言的数据稀缺，数据收集和标注过程面临困难。其次，情感识别任务的复杂性导致标注者之间的不一致性，需要通过算法和人工审核来确保数据质量。此外，情感识别模型的跨语言迁移能力有限，尤其是在低资源语言上，模型的性能表现不佳。因此，如何提高情感识别模型的跨语言迁移能力和低资源语言的性能，以及如何处理标注者之间的不一致性，是BRIGHTER数据集面临的主要挑战。

常用场景

经典使用场景

BRIGHTER数据集涵盖了28种语言的文本情感标注数据，为情感识别任务提供了丰富的资源。该数据集的经典使用场景包括单语和多语言的情感分类和情感强度预测。研究人员可以利用这些数据集来训练和评估情感识别模型，从而在对话系统、情感分析、健康护理、叙事分析等领域中实现更准确的情绪感知和理解。

解决学术问题

BRIGHTER数据集主要解决了情感识别领域在低资源语言上的研究差距问题。该数据集提供了大量低资源语言的情感标注数据，使得研究人员可以对这些语言的情感识别任务进行更深入的研究。此外，该数据集还提供了多标签和多情感强度标注，有助于研究情感的复杂性和多面性，为情感识别领域提供了新的研究方向。

衍生相关工作

BRIGHTER数据集的发布推动了情感识别领域的研究进展，并衍生出了一系列相关工作。例如，一些研究利用BRIGHTER数据集来研究不同语言和文化背景下的情感表达差异，以及情感识别模型的跨语言泛化能力。此外，一些研究还利用BRIGHTER数据集来探索情感识别模型在不同任务中的应用，如情感强度预测、情感角色识别等。这些相关工作进一步推动了情感识别领域的发展，并为相关应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集