five

BRIGHTER

收藏
github2025-03-08 更新2025-02-28 收录
下载链接:
https://github.com/emotion-analysis-project/BRIGHTER
下载链接
链接失效反馈
官方服务:
资源简介:
BRIGHTER:针对28种语言的桥接人类注释文本情感识别数据集差距

BRIGHTER: Bridging the Gap in Human-Annotated Text Sentiment Recognition Datasets Across 28 Languages
创建时间:
2025-02-25
原始信息汇总

BRIGHTER 数据集概述

数据集简介

BRIGHTER (BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets) 是一个支持28种语言的多语言情感识别数据集,旨在解决人类标注文本情感识别数据集中的差距问题。

数据集结构

数据集包含三个主要任务:

  1. 情感分类 (Track A): 检测六种情感(愤怒、厌恶、恐惧、快乐、悲伤、惊讶)的存在与否。
  2. 情感强度分类 (Track B): 预测情感强度,范围从0(无)到3(高)。
  3. 多语言情感分类 (Track C): 跨语言迁移场景的评估。

数据格式

  • 数据以CSV文件存储,每个语言对应一个文件。
  • 列包括:idtextangerdisgustfearjoysadnesssurprise
  • 二进制任务: 标签为1(情感存在)或0(情感不存在)。
  • 强度任务: 标签范围为0(无)到3(高)。

评估指标

  • 二进制分类: 宏F1分数(跨情感平均)。
  • 强度分类: 预测强度值与真实强度值的皮尔逊相关性。

支持模型

微调Transformer模型

  • XLM-R Large (facebook/xlm-roberta-large)
  • mBERT (google-bert/bert-base-multilingual-cased)
  • RemBERT (google/rembert)
  • InfoXLM (microsoft/infoxlm-large)
  • mDeBERTa (microsoft/mdeberta-v3-base)
  • LaBSE (sentence-transformers/LaBSE)

大型语言模型(零/少样本)

  • LLaMA 3.3 70B (meta-llama/Llama-3.3-70B-Instruct)
  • Mixtral 8x7B (mistralai/Mixtral-8x7B-Instruct-v0.1)
  • DeepSeek R1 70B (deepseek-ai/DeepSeek-R1-Distill-Llama-70B)
  • Qwen 2.5 72B (Qwen/Qwen2.5-72B-Instruct)
  • Dolly v2 12B (databricks/dolly-v2-12b)

引用信息

bibtex @misc{muhammad2025brighterbridginggaphumanannotated, title={BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages}, author={Shamsuddeen Hassan Muhammad and Nedjma Ousidhoum and Idris Abdulmumin and Jan Philip Wahle and Terry Ruas and Meriem Beloucif and Christine de Kock and Nirmal Surange and Daniela Teodorescu and Ibrahim Said Ahmad and David Ifeoluwa Adelani and Alham Fikri Aji and Felermino D. M. A. Ali and Ilseyar Alimova and Vladimir Araujo and Nikolay Babakov and Naomi Baes and Ana-Maria Bucur and Andiswa Bukula and Guanqun Cao and Rodrigo Tufino Cardenas and Rendi Chevi and Chiamaka Ijeoma Chukwuneke and Alexandra Ciobotaru and Daryna Dementieva and Murja Sani Gadanya and Robert Geislinger and Bela Gipp and Oumaima Hourrane and Oana Ignat and Falalu Ibrahim Lawan and Rooweither Mabuya and Rahmad Mahendra and Vukosi Marivate and Andrew Piper and Alexander Panchenko and Charles Henrique Porto Ferreira and Vitaly Protasov and Samuel Rutunda and Manish Shrivastava and Aura Cristina Udrea and Lilian Diana Awuor Wanzare and Sophie Wu and Florian Valentin Wunderlich and Hanif Muhammad Zhafran and Tianhui Zhang and Yi Zhou and Saif M. Mohammad}, year={2025}, eprint={2502.11926}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11926}, }

搜集汇总
数据集介绍
main_image_url
构建方式
BRIGHTER数据集通过整合28种语言的文本情感识别数据,旨在填补跨语言情感识别研究的空白。该数据集的构建基于多种语言的家庭分类,通过在不同语言上训练和测试模型,实现了对情感分类和情感强度分类的全面覆盖。
使用方法
使用BRIGHTER数据集时,用户可以根据需要选择微调的变换器模型或大型语言模型进行零样本或少量样本评估。数据集提供了详细的脚本来帮助用户进行模型的训练、评估和分析。用户可通过命令行脚本在GPU集群上并行运行实验,并使用提供的处理脚本汇总和生成结果表格。
背景与挑战
背景概述
BRIGHTER数据集,全称为BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages,旨在构建一个多语言文本情感识别数据集,涵盖28种语言。该数据集的创建汇集了多位研究人员和机构的力量,其研究背景源于对多语言情感识别领域中标注数据的缺乏和分布不均的关切。自提出以来,BRIGHTER数据集在促进跨语言情感识别研究方面发挥了重要作用,为学术界和工业界提供了宝贵的资源,对相关领域产生了深远的影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 多语言情感标注的一致性和准确性保证;2) 跨语言情感识别模型的训练与评估,尤其是在零样本或少样本设置下的表现;3) 针对不同的语言家族,如何有效进行语言模型的迁移学习;4) 处理不同语言之间在表达情感上的文化差异和语言特性。这些挑战不仅体现在数据集的构建上,也体现在后续模型训练和结果评估的各个环节中。
常用场景
经典使用场景
BRIGHTER数据集作为多语言情绪识别的重要资源,其经典使用场景主要在于对跨语言的情绪分类模型进行微调和评估。通过微调变换器模型,研究者可以在单一语言上对情绪分类和情绪强度分类任务进行训练和测试,进而评估模型在不同语言家族间的迁移性。
解决学术问题
该数据集解决了多语言情绪识别研究中标注数据不足和跨语言模型迁移性评估的问题。它提供了28种语言的标注文本,使得研究者能够在多种语言环境下评估和改进情绪识别模型的性能,对于推动多语言自然语言处理领域的发展具有重要意义。
实际应用
在实际应用中,BRIGHTER数据集可以被用于开发能够理解多种语言情绪的智能系统,如多语言客户服务机器人、情感分析工具和社交媒体监控平台,以提升这些系统的跨文化交流能力和情感理解能力。
数据集最近研究
最新研究方向
BRIGHTER数据集针对多语言文本情感识别,近期研究主要聚焦于细粒度的情感分类与强度预测,以及跨语言的情感识别。研究不仅涉及对细粒度情感的分类,如喜悦、悲伤、愤怒等,还包含对情感强度的量化评估。此外,研究通过零样本或少量样本学习策略,探索大型语言模型在多语言情感识别任务中的应用,特别是在跨语言转移场景下的表现,为多语言情感计算领域提供了新的研究方向,并有望推动相关技术的发展与应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作