five

Multitask, RSDD, Aldarwish and Ahmad, Reece and Danforth, Shen et al., 160Users, SAD corpus, Vedula and Parthasarathy, Hiraga

收藏
github2024-05-16 更新2024-05-31 收录
下载链接:
https://github.com/bucuram/depression-datasets-nlp
下载链接
链接失效反馈
官方服务:
资源简介:
用于抑郁症检测的社交媒体数据集集合,包括Twitter、Reddit、Instagram等多个平台的数据,涉及多种语言和标注方法。

A collection of social media datasets for depression detection, encompassing data from multiple platforms such as Twitter, Reddit, and Instagram, involving various languages and annotation methods.
创建时间:
2023-09-08
原始信息汇总

数据集概述

数据集名称

Datasets for depression detection using data posted on online platforms

数据集描述

该数据集用于在线平台上的抑郁检测,包含多种语言和平台的数据。

数据集详细信息

数据集列表

数据集名称 平台 语言 级别 标注程序 标签 数据集大小 可用性 链接
Multitask (Benton et al., 2017) Twitter English USER Self-disclosure Labels for multiple disorders 9.5K users UNK
RSDD (Yates et al., 2017) Reddit English USER Self-disclosure Binary 116K users N/AV
Aldarwish and Ahmad (2017) Twitter, Facebook, LiveJournal English POST Manual annotation Binary, DSM-IV symptoms 6.7K posts API
Reece and Danforth (2017) Instagram English USER CES-D Binary 166 users UNK
Shen et al. (2017) Twitter English USER Self-disclosure Binary 2.8K users FREE 链接
160Users (Jamil et al., 2017) Twitter English USER, POST Self-disclosure Binary 160 users, 8K posts AUTH
SAD corpus (Mowery et al., 2017) Twitter English POST Manual annotation Symptoms, psychological stressors 9.3k posts API
Vedula and Parthasarathy (2017) Twitter English USER Depression-related keywords Binary 150 users API
Hiraga (2017) Japanese blogging websites Japanese USER Self-disclosure Binary 101 users UNK
eRisk2017 (Losada et al., 2017) Reddit English USER Self-disclosure Binary 887 users DUA 链接
Yazdavar et al. (2017) Twitter English USER Self-disclosure Binary 47K users UNK
Rojas-Barahona et al. (2018) Koko Platform English POST Manual annotation CBT Concepts 4035 posts AUTH 链接
Pirina and Çöltekin (2018) Reddit English POST Subreddit participation Binary 3.6K posts FREE 链接
Eichstaedt et al. (2018) Facebook English USER Medical records diagnosis Binary 683 users UNK
Seabrook et al. (2018) Twitter, Facebook English USER PHQ-9 Depression severity 78 users N/AV
Ricard et al. (2018) Instagram English USER PHQ-8 Binary 749 users UNK
Shen et al. (2018) Sina Weibo Chinese USER Self-disclosure Binary 1.1K users UNK
TRT (Wolohan et al., 2018) Reddit English USER Self-disclosure Binary 12K users UNK
eRisk2018 (Losada et al., 2018) Reddit English USER Self-disclosure Binary 1.1K users DUA 链接
Loveys et al. (2018) 7 Cups of Tea English USER Self-disclosure Binary 1.9K users UNK
Chen et al. (2018a) Twitter English USER Self-disclosure Labels for multiple disorders 7.9K users API
Chen et al. (2018b) Twitter English USER Self-disclosure Binary 7K users API
RSDD-Time (MacAvaney et al., 2018) Reddit English USER Self-disclosure Labels for multiple disorders 598 users N/AV
Islam et al. (2018) Facebook English POST - Binary 7K posts FREE 链接
SMHD (Cohan et al., 2018) Reddit English USER Self-disclosure Labels for multiple disorders 350K users N/AV
Wu et al. (2018) Facebook Chinese USER CES-D Binary 1.4K users UNK
Hemtanon and Kittiphattanabawon (2019) Facebook Thai POST Manual annotation Binary 1.5K posts UNK
Wang et al. (2019) Sina Weibo Chinese POST Manual annotation Depression severity 13.9K users UNK
Gui et al. (2019) Twitter English USER Self-disclosure Binary 2.8K users API
Chandra Guntuku et al. (2019) Twitter English USER BDI Binary 887 users UNK
Almouzini et al. (2019) Twitter English USER, POST Manual annotation Binary 89 users UNK
Leis et al. (2019) Twitter Spanish USER, POST Self-disclosure, manual annotation Binary 540 users, 1K posts FREE 链接
Coello-Guilarte et al. (2019) Twitter Spanish USER Self-disclosure Binary 316 users FREE 链接
Peng et al. (2019) Sina Weibo Chinese USER Manual annotation Binary 387 users UNK
eRisk2019 (Losada et al., 2019) Reddit English USER BDI-II BDI filled-in 20 users DUA 链接
Uddin et al. (2019) Twitter Bengali POST Manual annotation Binary 3.8K posts UNK
Yao et al. (2020) Sina Weibo Chinese USER Manual, automatic annotation Binary 2.7K users UNK
Owen et al. (2020) Twitter English POST Manual annotation Binary 1K posts FREE 链接
Bathina et al. (2021) Twitter English USER Self-disclosure Binary 1.2K users AUTH 链接
Ríssola et al. (2020) Reddit English POST Self-disclosure, heuristics Binary 14K posts DUA
Birnbaum et al. (2020) Facebook English USER Medical records diagnosis Binary 223 users AUTH
Mann et al. (2020) Instagram Portuguese USER BDI Binary 221 users UNK
Santos et al. (2020) Twitter Portuguese USER Self-disclosure Binary 224 users UNK
Alghamdi et al. (2020) Arabic POST Manual annotation Binary 20K posts UNK
Li et al. (2020) Sina Weibo Chinese USER Self-disclosure Binary 1.8K users FREE 链接
D2S (Yadav et al., 2020) Twitter English POST PHQ-9 PHQ-9 symptoms 12K posts AUTH
Wang et al. (2020) Sina Weibo Chinese USER Depression-related keywords Binary 32K users FREE 链接
eRisk2020 (Losada et al., 2020) Reddit English USER BDI-II BDI filled-in 90 users DUA 链接
Stankevich et al. (2020) VKontakte Russian USER BDI BDI score 1.3K users UNK
Tabak and Purver (2020) Twitter English, French, German, Italian, Spanish USER Self-disclosure Binary 5K users API
Yazdavar et al. (2020) Twitter English USER Manual annotation Binary 8.7K users DUA
Wołk et al. (2021) Facebook, Reddit Polish POST Self-disclosure, clinical interview Binary 262 users UNK
Haque et al. (2021) Reddit English POST Subreddit participation Depression vs. suicide 1.8K posts FREE 链接
Chiu et al. (2021) Instagram English, Chinese USER Depression-related keywords Binary 520 users UNK
Nanomi Arachchige et al. (2021) Online forums English POST Manual annotation Depression severity 2.1K posts UNK
Hämäläinen et al. (2021) Online blogs Thai POST Manual annotation Binary 900 posts FREE 链接
Sherman et al. (2021) Reddit English USER Self-disclosure Binary 31K users DUA
Yang et al. (2021) Sina Weibo Chinese POST Manual annotation Depression severity 6.1K posts AUTH
eRisk 2021 (Parapar et al., 2021) Reddit English USER BDI-II BDI filled-in 170 users DUA 链接
Pirayesh et al. (2021) Twitter English USER Self-disclosure Binary 817 users AUTH
Niimi (2021) TOBYO Japanese USER Blog theme Binary 901 users UNK
Musleh et al. (2021) Twitter Arabic USER, POST CES-D and self-disclosure Binary, DSM-5 symptoms 4.5K posts UNK
Guo et al. (2021) Reddit English USER Self-disclosure Labels for multiple disorders 7.9 K users API
Zhang et al. (2021) Twitter English USER Self-disclosure Binary 5K users API
Cohrdes et al. (2021) Twitter German POST Automatic annotation for PHQ-8 symptoms Binary 88K posts AUTH
Zhou et al. (2021) Twitter English USER Self-disclosure Binary 1.8M posts

数据集可用性标签说明

  • FREE:数据集公开可用,在线托管,任何人都可以访问。
  • AUTH:数据可通过联系论文作者获得。
  • API:数据集可通过文章中提供的详细信息使用特定社交媒体平台的API进行合理程度的努力重现。
  • DUA:数据仅在签署数据使用协议后可用。有时,可能需要机构审查委员会(IRB)的授权。
  • UNK:数据集的可用性未知;作者未提及数据是否对研究社区开放。
  • N/AV:由于伦理考虑,数据集不再可用或无法共享。

COVID-19相关数据集标识

数据集中包含COVID-19疫情期间收集的数据,用图标标识。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多个在线平台上的用户发布内容,涵盖了Twitter、Reddit、Facebook等多个社交平台。数据集的标注过程主要依赖于自我披露(self-disclosure)和手动标注,部分数据集还采用了抑郁相关关键词或心理测量工具(如CES-D、PHQ-9等)进行标注。数据集的构建方式多样,包括从用户级别(USER)和帖子级别(POST)进行数据收集,确保了数据的多样性和广泛性。
使用方法
该数据集可用于多种抑郁检测任务,包括但不限于文本分类、情感分析和心理健康评估。用户可以根据数据集的标注方式选择合适的模型进行训练,如使用BERT、LSTM等深度学习模型进行文本分类。对于公开可用的数据集,用户可以直接下载并进行处理;对于需要API或数据使用协议的数据集,用户需按照相关要求进行申请和使用。此外,数据集的多平台和多语言特性使其适用于跨平台和跨语言的抑郁检测研究。
背景与挑战
背景概述
近年来,随着社交媒体的广泛应用,利用在线平台数据进行抑郁症检测的研究逐渐成为心理学与计算机科学交叉领域的热点。该数据集集合了多个研究团队在2017年至2021年间创建的抑郁症检测数据集,涵盖了Twitter、Reddit、Facebook等多个平台。这些数据集的核心研究问题是通过用户在社交媒体上的自我披露内容,识别其是否存在抑郁症倾向。主要研究人员包括Benton、Yates、Aldarwish、Ahmad等,研究机构涉及多所知名大学和研究机构。这些数据集的创建不仅推动了抑郁症自动检测技术的发展,还为心理健康领域的研究提供了宝贵的数据资源。
当前挑战
该数据集在构建过程中面临诸多挑战。首先,数据来源的多样性使得数据整合与标注过程复杂,不同平台的数据格式、语言表达方式以及用户行为模式各异,增加了数据预处理的难度。其次,抑郁症的诊断本身具有主观性和复杂性,如何通过社交媒体上的文本数据准确捕捉用户的抑郁状态,仍是一个技术难题。此外,数据隐私与伦理问题也是该领域研究的重要挑战,尤其是在涉及用户敏感信息时,如何确保数据使用的合法性与道德性,是研究者必须面对的问题。
常用场景
经典使用场景
该数据集主要用于通过分析在线平台上的用户发布内容来检测抑郁症。其经典使用场景包括利用自然语言处理技术对社交媒体上的文本进行情感分析,识别用户的情绪状态,尤其是检测抑郁症的早期迹象。通过分析用户在Twitter、Reddit等平台上的发帖内容,研究人员可以构建模型,预测用户是否可能患有抑郁症,从而为心理健康干预提供数据支持。
解决学术问题
该数据集解决了在心理健康领域中如何通过社交媒体数据进行抑郁症早期检测的学术问题。传统的抑郁症诊断依赖于临床访谈和问卷调查,而该数据集通过分析用户在社交媒体上的自我披露内容,提供了一种非侵入性的检测方法。这不仅扩展了抑郁症研究的数据来源,还为大规模人群的心理健康监测提供了新的可能性,具有重要的学术价值和实际意义。
实际应用
在实际应用中,该数据集可用于开发心理健康监测工具,帮助医疗机构和心理健康服务提供者及时识别潜在的抑郁症患者。例如,社交媒体平台可以通过集成相关算法,自动筛选出可能需要心理干预的用户,并向他们提供支持资源。此外,该数据集还可用于政府和公共卫生部门的心理健康政策制定,通过大规模数据分析,了解社会心理健康状况的变化趋势。
数据集最近研究
最新研究方向
近年来,基于在线平台数据进行抑郁症检测的研究逐渐成为心理健康领域的前沿课题。该领域的研究方向主要集中在多任务学习、跨平台数据整合以及自动化标注技术的应用上。通过分析用户在社交媒体上的行为模式和语言特征,研究者们致力于开发更为精准的抑郁症检测模型。特别是在COVID-19疫情期间,社交媒体数据的使用显著增加,为研究提供了丰富的数据来源。此外,跨语言和跨文化的抑郁症检测研究也逐渐受到关注,旨在提高模型的普适性和准确性。这些研究不仅有助于心理健康领域的早期干预,还为公共卫生政策的制定提供了科学依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务