five

Cultural Lenses on Emotion (CuLEmo)|情感识别数据集|跨文化交流数据集

收藏
arXiv2025-03-12 更新2025-03-18 收录
情感识别
跨文化交流
下载链接:
http://arxiv.org/abs/2503.10688v1
下载链接
链接失效反馈
资源简介:
CuLEmo是一个高质量、多元文化和多语言基准数据集,由Instituto Politécnico Nacional等机构创建。该数据集包含六种语言的400个精心设计的情感问题,每个问题都需要深入的文化推理和理解。数据集通过手工收集和文化事件注释来创建,旨在评估跨文化情感预测中大型语言模型的文化意识。
提供机构:
Instituto Politécnico Nacional, Haverford College, Wollo University, Pennsylvania State University, University of Hamburg
创建时间:
2025-03-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
CuLEmo数据集的构建过程分为多个步骤,首先通过手工设计、网络搜索以及大语言模型(LLMs)的提示,收集了来自六个目标国家(美国、阿联酋、德国、埃塞俄比亚、印度和墨西哥)的文化事件。这些事件涵盖了传统、习俗和引发不同文化情感的行为。随后,这些事件被翻译成五种目标语言(阿拉伯语、阿姆哈拉语、德语、印地语和西班牙语),并通过母语者进行审核,确保翻译的准确性和文化相关性。最后,使用亚马逊Mechanical Turk(MTurk)进行标注,确保每个实例至少有五名来自目标国家的母语者进行标注,并使用多数投票机制确定最终标签。
特点
CuLEmo数据集的特点在于其多文化和多语言的覆盖范围,涵盖了六种语言和六个国家的文化背景。数据集中的每个事件都经过精心设计,避免使用显式的情感关键词,从而要求模型具备更深层次的文化推理能力。此外,CuLEmo的标注过程充分考虑了文化差异,确保每个事件在不同文化背景下的情感反应得到准确反映。数据集还提供了丰富的情感类别(如喜悦、愤怒、悲伤、恐惧、内疚和中性),并通过多轮标注确保了标注的一致性和可靠性。
使用方法
CuLEmo数据集主要用于评估大语言模型(LLMs)在跨文化情感理解和情感分析任务中的表现。研究者可以通过该数据集测试模型在不同文化背景下的情感预测能力,并探讨提示语言(如英语或目标语言)对模型性能的影响。具体使用时,研究者可以设计包含或不包含明确国家上下文的提示,评估模型在零样本设置下的表现。此外,CuLEmo还可用于研究情感在不同语言和文化中的表达差异,帮助开发更具文化敏感性的自然语言处理系统。
背景与挑战
背景概述
Cultural Lenses on Emotion (CuLEmo) 数据集由 Tadesse Destaw Belay 等研究人员于 2025 年提出,旨在解决自然语言处理(NLP)领域中的跨文化情感理解问题。该数据集由来自六个不同语言(阿姆哈拉语、阿拉伯语、英语、德语、印地语和西班牙语)的 400 个精心设计的问题组成,每个问题都要求模型具备文化敏感性和情感推理能力。CuLEmo 的创建标志着情感分析领域的一个重要进展,尤其是在跨文化情感预测和情感分析任务中,它为评估大型语言模型(LLMs)的文化感知能力提供了首个多语言、多文化的基准。该数据集的研究背景源于现有情感分析基准的局限性,尤其是对文化维度的忽视以及依赖英语标注数据的翻译问题。CuLEmo 的提出不仅填补了这一空白,还为未来开发更具文化敏感性的 NLP 系统提供了重要参考。
当前挑战
CuLEmo 数据集面临的主要挑战包括两个方面:首先,情感分析任务本身具有高度主观性,尤其是在跨文化背景下,情感的表达和理解存在显著差异。例如,同一事件在不同文化中可能引发截然不同的情感反应,这对模型的跨文化情感预测能力提出了更高要求。其次,数据集的构建过程也面临诸多挑战。为了确保数据的多样性和文化代表性,研究人员需要从多个文化背景中收集和标注数据,这一过程不仅耗时,还需要克服语言翻译和文化差异带来的复杂性。此外,数据标注的一致性和准确性也是一个重要问题,尤其是在涉及低资源语言时,如何确保标注质量成为构建过程中的一大难题。这些挑战不仅影响了数据集的构建,也对模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
Cultural Lenses on Emotion (CuLEmo) 数据集主要用于评估多语言大模型(LLMs)在跨文化情感理解任务中的表现。该数据集通过精心设计的400个问题,涵盖了六种语言(阿姆哈拉语、阿拉伯语、英语、德语、印地语和西班牙语),每个问题都要求模型进行文化推理和情感预测。经典的使用场景包括情感预测和情感分析任务,尤其是在跨文化背景下,模型需要理解不同文化对同一事件的情感反应差异。
解决学术问题
CuLEmo 数据集解决了现有情感分析基准的两个主要问题:一是传统方法过于依赖基于关键词的情感识别,忽略了文化维度对情感理解的重要性;二是许多数据集通过将英语标注数据翻译成其他语言,导致评估结果不可靠。CuLEmo 通过原生多语言和文化背景的标注,提供了更公平的跨文化情感评估基准,帮助研究者更好地理解情感在不同文化中的表达差异。
衍生相关工作
CuLEmo 数据集的推出激发了多项相关研究,尤其是在跨文化情感分析和多语言模型评估领域。基于该数据集的研究工作进一步探讨了如何通过文化特定的微调或强化学习来提升模型的文化敏感性。此外,CuLEmo 也为其他跨文化数据集的设计提供了参考,推动了更多文化多样性在自然语言处理任务中的研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

公交线路时段客流分析

通过多层次、多维度的数据采集与处理方法获取乘客的上下车时间、地点、乘车刷卡类型等数据,再结合杭州公交线路数据和站点数据,可以为各大地图厂商、商业地产、相关政府单位主体等提供关于杭州市不同线路、不同站点在不同时间段的客流量分析服务,例如杭州市不同公交线路/站点的每日客流汇总、周均值客流、刷卡方式分布数据等,运用图表、地图、热力图、公交客流OD矩阵等直观方式展示分析结果,使复杂数据易于理解,还可根据具体需求,提供不同维度、不同时间跨度的定制化分析结果,满足不同主体的信息需求。

杭州数据交易所 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录