MentalRiskES

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/sinai-uja/corpusMentalRiskES

下载链接

链接失效反馈

官方服务：

资源简介：

MentalRiskES是一个关于西班牙语精神障碍的新数据集，分为三种不同的精神障碍：饮食障碍、抑郁和焦虑。每个数据集包含一组对象及其在Telegram社交网络聊天中的消息线程。

MentalRiskES is a novel dataset focusing on mental disorders in the Spanish language, categorized into three distinct types: eating disorders, depression, and anxiety. Each dataset comprises a collection of subjects along with their message threads from Telegram social network chats.

创建时间：

2024-03-11

原始信息汇总

数据集概述

名称: MentalRiskES

描述: MentalRiskES是一个关于西班牙语中精神障碍的新数据集，重点关注三种精神障碍：

饮食障碍
抑郁症
焦虑症

数据来源: 数据集包含来自Telegram社交网络公共群组的对话记录，仅保留文本消息，排除图像、音频等非文本内容。

构建方式:

数据从Telegram社交网络的公共群组中提取。
通过Prolific平台和Doccano标注平台，由10位不同的标注者对消息进行标注。

标注标签:

饮食障碍: 包含标签suffer (s)和control (c)。
抑郁症: 包含标签suffer + in favour (sf), suffer + against (sa), suffer + other (so), control (c)。
焦虑症: 包含标签suffer (s)和control (c)。

标注指南:

每个子数据集都有相应的标注指南，详细说明了标注过程和标准。

数据集评估:

MentalRiskES是IberLEF组织的一个共享任务，旨在促进西班牙语中精神风险障碍的早期检测。

引用信息:

引用该数据集的参考文献为：Mármol-Romero, A. M., Moreno-Muñoz, A. M., Del Arco, F. M. P., Molina-González, M. D., Valdivia, M. T. M., Lopez, L. A. U., & Ráez, A. M. (2024). MentalRiskES: A New Corpus for Early Detection of Mental Disorders in Spanish. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 11204-11214).

数据集结构

数据内容:

每个子数据集包含一组对象及其在Telegram社交网络聊天中的消息线程。

预处理:

数据集提供两种版本：处理过的版本包含表情符号，原始版本不包含表情符号。

标签详细信息:

二进制标签: bs (binary suffer), bc (binary control)
回归标签: rbs (regression binary suffer), rbc (regression binary control)
抑郁症特定标签: bsf (binary suffer favour), bsa (binary suffer against), bso (binary suffer other), rsf (regression suffer favour), rsa (regression suffer against), rso (regression suffer other)

数据集使用

目的:

该数据集旨在为开发用于早期检测社交网络上年轻人精神障碍的系统提供工具，主要用于非临床研究。

联系信息:

如需访问数据集，请联系：
- Alba M. Mármol Romero (amarmol@ujaen.es)
- Arturo Montejo Ráez (amontejo@ujaen.es)

搜集汇总

数据集介绍

构建方式

MentalRiskES数据集通过从Telegram社交网络的公开群组中提取对话内容构建而成。研究人员仅保留了文本消息，排除了图片、音频等非文本信息。为了进行标注，从每个主题中提取了部分消息，并通过Prolific平台招募的10名标注者使用Doccano标注平台进行标注。标注过程中，每个主题的消息被赋予了相应的标签，这些标签是通过标注者决策的平均值得出的。最终，每个用户ID与一组标签相关联，这些标签反映了用户在特定心理障碍中的状态。

特点

MentalRiskES数据集的显著特点在于其专注于西班牙语环境下的心理障碍检测，涵盖了饮食障碍、抑郁和焦虑三种主要心理障碍。数据集不仅包含了用户的文本消息，还通过多轮标注确保了标签的准确性和一致性。此外，数据集提供了两种格式的预处理数据：包含表情符号的原始格式和去除表情符号的文本格式，以满足不同研究需求。

使用方法

MentalRiskES数据集适用于多种自然语言处理任务，如文本分类和回归分析。用户可以通过提供的标签进行心理障碍的早期检测研究，标签包括二元分类标签和回归标签，分别用于判断用户是否患有特定心理障碍及其严重程度。数据集的预处理版本和原始版本均可供使用，用户可根据研究需求选择合适的格式。此外，数据集的标注指南和用户手册提供了详细的标注规则和平台使用说明，便于研究人员理解和使用数据集。

背景与挑战

背景概述

MentalRiskES数据集聚焦于西班牙语环境中精神障碍的早期检测，涵盖了饮食障碍、抑郁症和焦虑症三大类别。该数据集由Alba M. Mármol Romero等人于2023年创建，主要研究人员来自西班牙的多个研究机构，如Universidad de Jaén等。通过从Telegram社交网络中提取公开群组的对话，研究人员对这些对话进行了处理和标注，形成了包含用户ID、标签和文本消息的数据集。其核心研究问题在于通过自然语言处理技术，识别和预测用户在社交网络中的精神健康状态，从而为早期干预提供支持。该数据集的发布不仅推动了西班牙语精神健康领域的研究，还为全球范围内的相关研究提供了宝贵的资源。

当前挑战

MentalRiskES数据集在构建过程中面临了多重挑战。首先，从公开的Telegram群组中提取对话数据涉及隐私和伦理问题，需确保数据的匿名性和非歧视性。其次，数据的标注过程复杂，依赖于10名标注者通过Prolific平台进行，且需处理标注结果的一致性问题，尤其是在标注结果出现平局时。此外，数据集的多样性和代表性也是一个挑战，需确保不同性别、年龄和文化背景的用户在数据集中得到充分体现。最后，如何利用该数据集进行有效的模型训练和评估，尤其是在处理文本分类和回归任务时，仍需进一步探索和优化。

常用场景

经典使用场景

MentalRiskES数据集在精神健康领域的经典应用场景主要集中在通过自然语言处理技术对西班牙语社交媒体文本进行分析，以识别和预测饮食失调、抑郁和焦虑等精神障碍。该数据集通过提取Telegram社交网络中的对话内容，结合多标签注释系统，为研究者提供了一个丰富的资源，用于开发和验证基于文本的分类和回归模型，从而实现对精神健康风险的早期检测。

解决学术问题

MentalRiskES数据集解决了在西班牙语环境中早期检测精神障碍的学术难题。通过提供经过多重注释的社交媒体对话数据，该数据集为研究者提供了一个标准化的基准，用于评估和比较不同自然语言处理模型的性能。这不仅推动了精神健康领域的研究进展，还为跨文化背景下的精神健康风险评估提供了宝贵的数据支持。

衍生相关工作

基于MentalRiskES数据集，研究者们已经开展了一系列相关工作，包括但不限于开发新的文本分类算法、改进现有的回归模型，以及探索多模态数据（如文本和时间数据）的融合方法。这些工作不仅提升了精神健康风险检测的准确性，还为未来的研究提供了新的方向，特别是在跨文化和多语言环境下的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集