MentalHealth-Darija
收藏Hugging Face2026-02-10 更新2026-02-11 收录
下载链接:
https://huggingface.co/datasets/moujar/MentalHealth-Darija
下载链接
链接失效反馈官方服务:
资源简介:
Mental Health Darija 是一个多语言(英语和摩洛哥达里贾语)的心理健康文本分类数据集。每个样本包含平行文本:英语句子(`text_en`)及其达里贾语(摩洛哥阿拉伯语方言)翻译(`text`),并带有一个标签指示心理健康类别。数据集支持七种分类:焦虑、双相情感障碍、抑郁、正常、人格障碍、压力和自杀倾向。该数据集旨在支持资源匮乏语言(如达里贾语)中的心理健康检测和自然语言处理研究。数据集包含51,093个样本,分为七个类别,分布不均(如抑郁和正常类别样本最多,人格障碍最少)。数据集以单一分割形式提供,建议用户自行划分训练/验证/测试集。数据可能包含敏感内容,使用时需遵循伦理准则。数据集采用MIT许可证,适用于教育和研究用途。
创建时间:
2026-02-09
搜集汇总
数据集介绍

构建方式
在心理健康与自然语言处理交叉领域,针对低资源语言摩洛哥达里贾方言的研究需求,MentalHealth-Darija数据集通过人工生成语言内容与机器生成标注相结合的方式构建。该数据集收集了涵盖焦虑、抑郁、压力、自杀倾向、双相情感障碍、人格障碍及正常状态共七类心理健康状态的文本表述,并精心提供了达里贾方言与英语的平行对照文本。其构建过程注重语料的代表性与多样性,旨在为达里贾方言的心理健康文本分类任务奠定高质量的数据基础。
特点
该数据集的核心特征在于其双语平行结构,每条数据均包含达里贾方言原文及其对应的英文翻译,为跨语言模型研究与迁移学习提供了便利。数据规模包含五万余条实例,覆盖了七种细粒度的心理健康类别,尽管各类别样本分布存在不均衡现象,例如正常与抑郁类样本较多,而人格障碍类样本相对稀少。文本长度跨度较大,尤其是英文文本,这要求模型具备处理可变长度序列的能力,同时也为分析不同表述复杂度下的分类性能提供了空间。
使用方法
研究人员可利用该数据集进行多类文本分类任务的模型训练与评估,特别适用于针对达里贾方言的心理健康状态检测模型开发。由于数据集未预设标准的训练、验证与测试划分,建议使用者根据研究目标自行采用分层抽样策略进行数据分割,以确保各类别在子集中的比例均衡。在模型训练前,应对长度差异显著的文本进行适当的预处理,如截断或填充,并考虑采用类别权重或重采样技术以缓解类别不平衡可能带来的偏差。模型输出应严格限于研究辅助用途,不可替代专业的心理健康诊断。
背景与挑战
背景概述
在自然语言处理与心理健康交叉领域,资源稀缺语言的数据集构建是推动技术普惠的关键环节。MentalHealth-Darija数据集由研究者Abderrahmane Moujar与Otmane El Bourki于2025年创建,旨在应对摩洛哥达里贾方言在心理健康文本分类任务中的资源匮乏问题。该数据集包含超过五万条英语与达里贾语平行文本,标注涵盖焦虑、抑郁、双相情感障碍等七类心理健康状态,其核心研究问题聚焦于低资源方言环境下的心理健康状态自动识别。该资源的出现,为阿拉伯语方言区的心理健康辅助筛查工具开发提供了重要的数据基础,促进了跨文化心理健康研究的计算语言学应用。
当前挑战
该数据集致力于解决心理健康文本多分类任务,其核心挑战在于对低资源方言中复杂情感与心理状态的精准辨识。达里贾语作为口语化方言,缺乏标准化书写形式,且心理健康表述常蕴含文化特定隐喻,这为模型的特征学习带来语义模糊性。在构建过程中,数据集面临类别分布显著不均衡的挑战,例如“正常”与“抑郁”类别样本充裕,而“人格障碍”等类别样本稀少,可能影响模型的泛化性能。同时,数据标注过程涉及敏感心理健康内容,需遵循严格的伦理准则,而英语文本长度差异极大,亦对预处理与模型输入标准化提出了技术要求。
常用场景
经典使用场景
在心理健康计算语言学领域,针对低资源语言的研究常面临数据稀缺的挑战。MentalHealth-Darija数据集以其摩洛哥达里贾语与英语的平行文本结构,为跨语言心理健康文本分类提供了经典范例。研究者通常利用该数据集训练多语言分类模型,通过迁移学习或联合训练策略,评估模型在达里贾语这种方言上的情感与心理状态识别能力,从而推动方言地区心理健康检测技术的发展。
实际应用
在实际应用层面,该数据集为开发面向摩洛哥及北非阿拉伯语使用者的心理健康筛查工具提供了关键训练资源。基于此数据集训练的模型可集成于社交媒体监控、在线社区支持平台或初级医疗辅助系统中,用于自动识别用户文本中可能存在的焦虑、抑郁或自杀倾向等风险信号。这类应用有助于在医疗资源分布不均的地区,实现心理健康问题的早期发现与定向干预,提升公共心理健康服务的可及性与效率。
衍生相关工作
围绕MentalHealth-Darija数据集,已衍生出若干探索低资源语言心理健康分类的前沿工作。典型研究包括设计针对类别不平衡问题的自适应损失函数,以及构建融合达里贾语语言特征的预训练模型微调框架。此外,该数据集常被用作基准,用于比较不同跨语言表示学习方法(如多语言BERT、XLM-R)在方言心理健康分类任务上的效能,进而推动了面向特定文化语境的心理健康计算模型的算法创新与评估标准化。
以上内容由遇见数据集搜集并总结生成



