five

CultureCare

收藏
arXiv2025-08-11 更新2025-08-13 收录
下载链接:
https://github.com/UKPLab/arxiv2025-culturecare
下载链接
链接失效反馈
官方服务:
资源简介:
CultureCare是一个多文化数据集,专为评估和训练大型语言模型(LLMs)在文化敏感的情感支持方面的能力而设计。该数据集涵盖了四种不同的全球文化,即阿拉伯、中文、德语和犹太文化,并对情感支持策略和文化相关信号进行了细粒度的标注。数据集包括1729条情感困扰信息、1523条文化信号和1041条支持策略。
提供机构:
德国达姆施塔特工业大学计算机科学与黑森州人工智能中心
创建时间:
2025-08-11
原始信息汇总

数据集概述

基本信息

数据集描述

  • 目的:该数据集旨在增强文化敏感性,为情感支持提供定制化的语言模型支持。
  • 内容:包含实验性软件,用于支持相关研究。

引用信息

bibtex @article{culturecare2025, author = {Chen Cecilia Liu and Hiba Arnaout and Nils Kovačić and Dana Atzil-Slonim and Iryna Gurevych}, title = {Tailored Emotional LLM-Supporter: Enhancing Cultural Sensitivity}, note = {Chen Cecilia Liu and Hiba Arnaout contributed equally to this work}, journal = {ArXiv preprint}, year = {2025}, url = {https://arxiv.org/abs/2508.07902}, doi = {https://doi.org/10.48550/arXiv.2508.07902}, eprinttype = {arXiv}, eprint = {2508.07902} }

相关资源

联系方式

搜集汇总
数据集介绍
main_image_url
构建方式
CultureCare数据集的构建过程遵循了严谨的多阶段流程。首先从Reddit平台通过文化关键词和心理健康关键词的双向检索采集初始数据,随后采用基于规则和LLM的双重过滤机制去除噪声内容,最终保留462个高质量贴文。每个贴文均由文化背景匹配的标注者进行细粒度标注,标注内容包括情感困扰片段(含强度评级)、文化信号(涵盖概念、价值观等7类)以及支持策略(8种类型),并经过二次审核确保标注质量。
特点
作为首个专注于文化敏感情感支持的多文化数据集,CultureCare涵盖阿拉伯、中国、德国和犹太四种文化背景,包含1729条标注的情感困扰信息、1523个文化信号和1041条支持策略。其独特价值体现在三方面:细粒度的跨文化标注体系能够捕捉文化价值观对情感表达的深层影响;真实场景下的求助-回应配对为研究提供了生态效度;同时包含英语和原生语言数据的设计突破了以语言界定文化的传统局限。
使用方法
该数据集支持三类主要应用:首先可作为基准数据集评估LLM生成文化敏感回应的能力;其次能用于训练模型识别文化信号与情感困扰的关联模式;最后可作为临床心理学教学中文化能力训练的案例库。使用时需注意结合自动评估(如GPT-o3-mini作为评判员)与文化背景匹配的人类评估,并建议采用'文化角色扮演+专业指导原则+显式文化信号'的复合适配策略(+cga)以获得最佳效果。
背景与挑战
背景概述
CultureCare数据集由Technische Universität Darmstadt的Ubiquitous Knowledge Processing Lab (UKP Lab)与Bar-Ilan University心理学系的研究人员于2025年共同创建,旨在填补大型语言模型(LLM)在提供文化敏感性情感支持方面的研究空白。作为首个专注于跨文化情感支持的数据集,它涵盖阿拉伯、中国、德国和犹太四种文化背景,包含1729条标注了情感强度的求助信息、1523个文化信号标记和1041种支持策略。该数据集通过Reddit平台收集真实世界的情感支持对话,采用细粒度标注体系,为研究文化因素如何影响情感表达与支持方式提供了重要资源。其创新性体现在将文化心理学理论与自然语言处理技术相结合,推动了人机交互领域对文化敏感性的量化研究。
当前挑战
CultureCare面临的核心挑战体现在两个维度:在领域问题层面,情感支持本身具有高度文化特异性,不同文化对心理困扰的表达方式、社会支持期待值存在显著差异,而现有LLM主要基于西方文化数据训练,难以准确识别非西方文化中的情感线索;在构建过程层面,研究人员需克服文化信号标注的主观性问题,通过设计多层级标注框架确保跨文化注释的一致性。数据收集时面临真实场景中文化混合表达的复杂性,例如移民群体可能混合使用母语与英语表达情感。此外,保持文化代表性平衡与避免刻板印象之间的张力,以及处理心理健康话题特有的伦理问题(如触发内容过滤)都是构建过程中的关键挑战。
常用场景
经典使用场景
CultureCare数据集在跨文化情感支持研究中扮演了关键角色,尤其在探索大型语言模型(LLMs)如何生成具有文化敏感性的回应方面。该数据集通过标注四种不同文化背景下的情感困扰信号、文化特征和支持策略,为研究者提供了丰富的多文化语境数据。其经典应用场景包括训练和评估LLMs在模拟真实在线社区(如Reddit)中提供文化适应性情感支持的能力,特别是在处理涉及家庭压力、心理健康污名化或性别角色冲突等文化特异性议题时。
实际应用
在实际应用层面,CultureCare支持开发具有文化适应性的心理健康辅助工具。基于该数据集训练的模型可部署于跨国在线社区,为阿拉伯文化中面临心理健康污名的青年提供避免宗教冲突的建议,或为中国用户设计符合孝道框架的情绪疏导方案。临床领域,其标注体系被用于培训心理学学生的文化胜任力,帮助识别德国个体主义背景下与社会孤立相关的抑郁表达,或犹太文化中宗教认同与心理健康需求的交织模式。
衍生相关工作
该数据集催生了三个方向的经典研究:一是文化价值对齐技术(如AlKhamissi等2024年提出的文化角色扮演提示法),二是跨文化心理咨询评估框架(借鉴CCCI-R量表的计算化应用),三是合成数据生成方法(如Abbasi等2025年基于CultureCare构建的波斯语治疗对话数据集)。在LLMs情感支持领域,Zheng等(2024)的自我对话微调技术和Zhang等(2024)的FEEL评估框架均将其作为文化维度基准测试集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作