Mental Health Datasets

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/kharrigian/mental-health-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个不断更新的电子媒体数据集列表，用于建模心理健康状态。

A continuously updated list of electronic media datasets for modeling mental health states.

创建时间：

2019-11-08

原始信息汇总

数据集概述

数据集名称

Mental Health Datasets

数据集描述

该数据集包含了一系列用于模型化心理健康现象的数据集，主要来源于电子/社交媒体。原始数据（包含额外列）可在data_sources.xlsx中找到。

数据集内容

数据集详细信息如下：

Paper	Authors	Platform	Year	Target Outcomes
Inferring Social Media Users Mental Health Status from Multimodal Information	Xu, Pérez-Rosas, Mihalcea	Flickr	2020	Mental Health (General)
Dilated LSTM with attention for Classification of Suicide Notes	Schoene, Lacy, Turner, Dethlefs	Death Row Last Statements, The Kernel, Tumblr	2019	Suicide, Imminent Death, Depression, Loneliness
Detection of Depression-related Posts in Reddit Social Media Forum	Tadesse, Lin, Xu, Yang	Reddit, Online Support Forums	2019	Depression
Protecting User Privacy and Rights in Academic Data-Sharing Partnerships: Principles from a pilot program at Crisis Text Line	Pisani, Kanuri, Filbin, Gallo, Gould, Lehmann, Levine, Marcotte, Pascal, Rousseau, Turner, Yen, Ranney	Crisis Text Line	2019	None
Mental Health Surveillance over Social Media with Digital Cohorts	Amir, Dredze, Ayers	Twitter	2019	Depression, PTSD, Control
CLPsych 2019 Shared Task: Predicting the Degree of Suicide Risk in Reddit Posts	Zirikly, Resnik, Uzuner, Hollingshead	Reddit	2019	Suicidal Ideation
Can acute suicidality be predicted by Instagram data? Results from qualitative and quantitative language analyses	Brown, Bendig, Fischer, Goldwich, Baumeister, Plener	Instagram	2019	Non-suicidal Self-Injury
Methodological Gaps in Predicting Mental Health States from Social Media: Triangulating Diagnostic Signals	Ernala, Birnbaum, Candan, Rizvi, Sterling, Kane, De Choudury	Twitter, Facebook	2019	Schizophrenia
Suicide Risk Assessment with Multi-level Dual-Context Language and BERT	Matero, Idnani, Son, Giorgi, Vu, Zamani, Limbachiya, Guntuku, Schwartz	Reddit	2019	Suicidal Ideation
Latent Suicide Risk Detection on Microblog via Suicide-Oriented Word Embeddings and Layered Attention	Cao, Zhang, Feng, Wei, Wang, Li, He	Sina Weibo	2019	Suicidal Ideation
Automatic detection of eating disorder-related social media posts that could benefit from a mental health intervention	Yan, Fitzsimmons-Craft, Goodman, Krauss, Das, Cavazos-Rehg	Reddit	2019	Eating Disorder
Dreaddit: A Reddit Dataset for Stress Analysis in Social Media	Turcan, McKeown	Reddit	2019	Stress
Detecting Low Self-Esteem in Youths from Web Search Data	Zaman, Acharyya, Kautz, Silenzio	Google Search	2019	Self-esteem
BioInfo@UAVR at eRisk 2019: delving into social media texts for the early detection of mental and food disorders	Trifan, Luís Oliveira	Reddit	2019	Anorexia, Depression
Towards Augmenting Crisis Counselor Training by Improving Message Retrieval	DeMasi, Hearst, Recht	Synthetic Crisis Text Conversations	2019	None (Message Retrieval Task)
Multi-Task, Multi-Channel, Multi-Input Learning for Mental Illness Detection using Social Media Text	Kirinde Gamaarachichige, Inkpen	Twitter	2019	Depression, PTSD, Control
Adapting Deep Learning Methods for Mental Health Prediction on Social Media	Sekulic, Strube	Reddit	2019	Depression
User Dynamics in Mental Health Forums -- A Sentiment Analysis Perspective	Davcheva, Adam, Benlian	3 Online mental-health forums	2019

搜集汇总

数据集介绍

构建方式

精神健康数据集的构建主要依赖于从电子和社交媒体中收集的数据，这些数据经过整理和标注，形成了用于研究心理健康现象的资源。数据集的原始数据存储在`data_sources.xlsx`文件中，包含了多个平台的数据，如Flickr、Reddit、Twitter等。每条数据都附有详细的标注，涵盖了从抑郁症到自杀倾向等多种心理健康问题的研究目标。

特点

该数据集的显著特点在于其多平台、多维度的数据来源，涵盖了从社交媒体到在线支持论坛等多种渠道。数据集不仅包括文本信息，还可能包含图像等多模态数据，为研究者提供了丰富的分析材料。此外，数据集的更新频率较高，确保了研究的前沿性和时效性。

使用方法

研究者可以通过访问`data_sources.xlsx`文件获取原始数据，并根据研究需求进行进一步的分析和处理。数据集支持多种心理健康问题的研究，如抑郁症、自杀倾向等。研究者还可以利用提供的标准化标注工具对新文献进行标注，以扩展数据集的内容和应用范围。

背景与挑战

背景概述

心理健康数据集（Mental Health Datasets）是由Keith Harrigian、Carlos Aguirre和Mark Dredze等研究人员在约翰霍普金斯大学主导创建的，旨在通过社交媒体数据模型化心理健康现象。该数据集的核心研究问题集中在利用电子和社交媒体数据进行心理健康状态的建模与分析，特别是对抑郁症、自杀倾向等心理健康问题的检测。自2021年以来，该数据集已成为自然语言处理（NLP）与心理健康交叉领域的重要资源，为研究人员提供了丰富的数据来源，推动了心理健康领域的研究进展。

当前挑战

心理健康数据集在构建和应用过程中面临多重挑战。首先，数据隐私和用户权利保护是核心问题，特别是在处理社交媒体数据时，如何确保用户隐私不受侵犯是一个重大挑战。其次，心理健康状态的复杂性和多样性使得数据标注和分类变得极为困难，尤其是在多模态信息（如文本、图像等）的结合分析中。此外，社交媒体数据的动态性和噪声特性也为模型的准确性和鲁棒性带来了挑战。最后，跨平台数据的整合与标准化处理也是该领域面临的一个重要难题。

常用场景

经典使用场景

在心理健康领域，Mental Health Datasets数据集的经典使用场景主要集中在通过社交媒体和电子平台的数据来推断用户的心理健康状态。例如，研究人员可以利用该数据集分析用户在社交平台上的发帖内容、语言模式和情感表达，从而识别出潜在的心理健康问题，如抑郁症、自杀倾向等。这种基于多模态信息的心理健康状态推断，为心理健康研究提供了新的视角和工具。

衍生相关工作

基于Mental Health Datasets数据集，衍生出了许多经典的研究工作。例如，有研究利用该数据集开发了多任务学习模型，用于同时检测多种心理健康问题；还有研究通过分析社交媒体文本中的语言特征，提出了新的心理健康状态预测方法。这些衍生工作不仅丰富了心理健康研究的理论框架，还为实际应用提供了技术支持，推动了心理健康领域的技术进步。

数据集最近研究