CARMA
收藏arXiv2025-11-05 更新2025-11-19 收录
下载链接:
https://hf-mirror.com/datasets/smankarious/carma
下载链接
链接失效反馈官方服务:
资源简介:
CARMA是一个包含阿拉伯语Reddit帖子的自动标注的大型数据集,旨在为阿拉伯语心理健康研究提供支持。该数据集涵盖了六种心理健康状况,包括焦虑、自闭症和抑郁症等,以及一个对照组。数据集的规模和多样性均超过现有资源。通过定性和定量分析,揭示了阿拉伯语中特定心理健康状况的语言特征。此外,使用从浅层分类器到大型语言模型的各种模型进行了分类实验,展示了数据集在推进心理健康检测方面的潜力。
CARMA is a large, automatically annotated dataset of Arabic Reddit posts designed to support Arabic-language mental health research. It encompasses six mental health conditions, such as anxiety, autism, depression, and others, alongside a control group. The scale and diversity of this dataset surpass those of existing relevant resources. Through both qualitative and quantitative analyses, it uncovers the linguistic features specific to each of these mental health conditions in Arabic. Furthermore, classification experiments were conducted using a range of models spanning from shallow classifiers to large language models (LLMs), which demonstrates the dataset’s potential in advancing mental health detection research.
提供机构:
乔治华盛顿大学工程与应用科学学院
创建时间:
2025-11-05
搜集汇总
数据集介绍

构建方式
在阿拉伯语心理健康研究资源匮乏的背景下,CARMA数据集通过自动化标注方法构建,从八个活跃的阿拉伯语Reddit子论坛中采集数据。采用自报告诊断模式匹配算法,结合多方言关键词与诊断短语,在字符距离阈值内识别潜在确诊用户,并通过语言检测与内容过滤剔除非阿拉伯语帖子及短文本,最终形成包含六类心理健康状况与对照组的清洁语料库。
特点
作为首个大规模阿拉伯语心理健康数据集,CARMA涵盖焦虑、自闭症、抑郁症等六类病症及对照组,总量超过34万条帖子。其独特之处在于捕获了阿拉伯文化语境下的语言特征,如地域方言分布与宗教相关表达,并通过TF-IDF分析揭示了病症特有的词汇模式,例如焦虑用户高频使用第一人称代词,而自闭症相关文本则呈现结构化叙述倾向。
使用方法
该数据集支持基于传统分类器与Transformer模型的心理健康检测任务,用户可通过提取预训练阿拉伯语模型嵌入特征,训练逻辑回归、SVM等分类器进行病症二分类预测;亦可直接对BERT系列模型进行端到端微调,以捕捉病症特有的语言模式。数据已进行匿名化处理,需遵循伦理协议并通过数据使用协议获取,适用于跨文化心理健康语言学研究与早期风险检测工具开发。
背景与挑战
背景概述
随着全球心理健康问题日益凸显,阿拉伯语社群因文化禁忌与资源匮乏面临更严峻挑战。2025年,乔治华盛顿大学研究团队Saad Mankarious与Ayah Zirikly创建了CARMA数据集,这是首个基于Reddit平台的大规模自动标注阿拉伯语心理健康语料库。该数据集涵盖焦虑症、自闭症、抑郁症等六类心理健康状况及对照组,通过34万条帖子突破了现有资源在规模与多样性上的局限,为阿拉伯语自然语言处理与心理健康交叉研究提供了关键基础设施。
当前挑战
在领域问题层面,阿拉伯语心理健康检测长期受限于标注数据稀缺与文化表达特殊性,现有模型难以捕捉方言变体与宗教文化语境下的心理表征。构建过程中,研究团队面临三重挑战:其一是缺乏专用阿拉伯语心理健康社区,需从泛话题论坛中提取有效信号;其二是多方言混杂与英语代码切换导致30%数据丢失,需通过BERT模型进行语言净化;其三是自报告诊断模式存在17%误报率,需设计字符距离阈值算法过滤他人诊断等干扰信息。
常用场景
经典使用场景
在阿拉伯语心理健康研究领域,CARMA数据集为基于社交媒体的心理健康检测提供了重要支撑。该数据集通过自动标注的34万条阿拉伯语Reddit帖子,覆盖焦虑症、自闭症、抑郁症等六种心理健康状况及对照组,成为研究人员开展心理健康语言模式分析的首选资源。其经典应用场景包括利用TF-IDF分析和词云可视化技术,揭示不同心理健康状况下用户的语言特征差异,为构建精准的心理健康分类模型奠定数据基础。
解决学术问题
CARMA数据集有效解决了阿拉伯语心理健康研究中资源匮乏的核心难题。传统研究受限于标注数据稀缺,难以系统探索阿拉伯语使用者的心理健康语言表达模式。该数据集通过自报告诊断模式自动标注,突破了人工标注的规模限制,使研究人员能够首次在阿拉伯语环境下系统分析ADHD、强迫症等既往被忽视的心理健康状况。这种数据驱动的研究范式为理解阿拉伯文化背景下心理健康表达的特异性提供了实证依据,推动了跨文化心理健康研究的深入发展。
衍生相关工作
CARMA数据集的发布催生了多项阿拉伯语心理健康计算研究的重要进展。研究团队基于该数据集开发了融合传统分类器与Transformer模型的混合架构,在焦虑症检测任务中取得了0.83的F1分数。这些工作扩展了自报告诊断方法在低资源语言中的适用性,为后续研究提供了可复现的技术路线。同时,数据集的语言分析结果启发了针对阿拉伯语特定文化语境的心理健康词典构建,推动了心理健康计算语言学在阿拉伯语领域的方法创新。
以上内容由遇见数据集搜集并总结生成



