Multitask, RSDD, Aldarwish and Ahmad, Reece and Danforth, Shen et al., 160Users, SAD corpus, Vedula and Parthasarathy, Hiraga
收藏github2024-05-16 更新2024-05-31 收录
下载链接:
https://github.com/bucuram/depression-datasets-nlp
下载链接
链接失效反馈官方服务:
资源简介:
用于抑郁症检测的社交媒体数据集集合,包括Twitter、Reddit、Instagram等多个平台的数据,涉及多种语言和标注方法。
A collection of social media datasets for depression detection, encompassing data from multiple platforms such as Twitter, Reddit, and Instagram, involving various languages and annotation methods.
创建时间:
2023-09-08
原始信息汇总
数据集概述
数据集名称
Datasets for depression detection using data posted on online platforms
数据集描述
该数据集用于在线平台上的抑郁检测,包含多种语言和平台的数据。
数据集详细信息
数据集列表
| 数据集名称 | 平台 | 语言 | 级别 | 标注程序 | 标签 | 数据集大小 | 可用性 | 链接 |
|---|---|---|---|---|---|---|---|---|
| Multitask (Benton et al., 2017) | English | USER | Self-disclosure | Labels for multiple disorders | 9.5K users | UNK | ||
| RSDD (Yates et al., 2017) | English | USER | Self-disclosure | Binary | 116K users | N/AV | ||
| Aldarwish and Ahmad (2017) | Twitter, Facebook, LiveJournal | English | POST | Manual annotation | Binary, DSM-IV symptoms | 6.7K posts | API | |
| Reece and Danforth (2017) | English | USER | CES-D | Binary | 166 users | UNK | ||
| Shen et al. (2017) | English | USER | Self-disclosure | Binary | 2.8K users | FREE | 链接 | |
| 160Users (Jamil et al., 2017) | English | USER, POST | Self-disclosure | Binary | 160 users, 8K posts | AUTH | ||
| SAD corpus (Mowery et al., 2017) | English | POST | Manual annotation | Symptoms, psychological stressors | 9.3k posts | API | ||
| Vedula and Parthasarathy (2017) | English | USER | Depression-related keywords | Binary | 150 users | API | ||
| Hiraga (2017) | Japanese blogging websites | Japanese | USER | Self-disclosure | Binary | 101 users | UNK | |
| eRisk2017 (Losada et al., 2017) | English | USER | Self-disclosure | Binary | 887 users | DUA | 链接 | |
| Yazdavar et al. (2017) | English | USER | Self-disclosure | Binary | 47K users | UNK | ||
| Rojas-Barahona et al. (2018) | Koko Platform | English | POST | Manual annotation | CBT Concepts | 4035 posts | AUTH | 链接 |
| Pirina and Çöltekin (2018) | English | POST | Subreddit participation | Binary | 3.6K posts | FREE | 链接 | |
| Eichstaedt et al. (2018) | English | USER | Medical records diagnosis | Binary | 683 users | UNK | ||
| Seabrook et al. (2018) | Twitter, Facebook | English | USER | PHQ-9 | Depression severity | 78 users | N/AV | |
| Ricard et al. (2018) | English | USER | PHQ-8 | Binary | 749 users | UNK | ||
| Shen et al. (2018) | Sina Weibo | Chinese | USER | Self-disclosure | Binary | 1.1K users | UNK | |
| TRT (Wolohan et al., 2018) | English | USER | Self-disclosure | Binary | 12K users | UNK | ||
| eRisk2018 (Losada et al., 2018) | English | USER | Self-disclosure | Binary | 1.1K users | DUA | 链接 | |
| Loveys et al. (2018) | 7 Cups of Tea | English | USER | Self-disclosure | Binary | 1.9K users | UNK | |
| Chen et al. (2018a) | English | USER | Self-disclosure | Labels for multiple disorders | 7.9K users | API | ||
| Chen et al. (2018b) | English | USER | Self-disclosure | Binary | 7K users | API | ||
| RSDD-Time (MacAvaney et al., 2018) | English | USER | Self-disclosure | Labels for multiple disorders | 598 users | N/AV | ||
| Islam et al. (2018) | English | POST | - | Binary | 7K posts | FREE | 链接 | |
| SMHD (Cohan et al., 2018) | English | USER | Self-disclosure | Labels for multiple disorders | 350K users | N/AV | ||
| Wu et al. (2018) | Chinese | USER | CES-D | Binary | 1.4K users | UNK | ||
| Hemtanon and Kittiphattanabawon (2019) | Thai | POST | Manual annotation | Binary | 1.5K posts | UNK | ||
| Wang et al. (2019) | Sina Weibo | Chinese | POST | Manual annotation | Depression severity | 13.9K users | UNK | |
| Gui et al. (2019) | English | USER | Self-disclosure | Binary | 2.8K users | API | ||
| Chandra Guntuku et al. (2019) | English | USER | BDI | Binary | 887 users | UNK | ||
| Almouzini et al. (2019) | English | USER, POST | Manual annotation | Binary | 89 users | UNK | ||
| Leis et al. (2019) | Spanish | USER, POST | Self-disclosure, manual annotation | Binary | 540 users, 1K posts | FREE | 链接 | |
| Coello-Guilarte et al. (2019) | Spanish | USER | Self-disclosure | Binary | 316 users | FREE | 链接 | |
| Peng et al. (2019) | Sina Weibo | Chinese | USER | Manual annotation | Binary | 387 users | UNK | |
| eRisk2019 (Losada et al., 2019) | English | USER | BDI-II | BDI filled-in | 20 users | DUA | 链接 | |
| Uddin et al. (2019) | Bengali | POST | Manual annotation | Binary | 3.8K posts | UNK | ||
| Yao et al. (2020) | Sina Weibo | Chinese | USER | Manual, automatic annotation | Binary | 2.7K users | UNK | |
| Owen et al. (2020) | English | POST | Manual annotation | Binary | 1K posts | FREE | 链接 | |
| Bathina et al. (2021) | English | USER | Self-disclosure | Binary | 1.2K users | AUTH | 链接 | |
| Ríssola et al. (2020) | English | POST | Self-disclosure, heuristics | Binary | 14K posts | DUA | ||
| Birnbaum et al. (2020) | English | USER | Medical records diagnosis | Binary | 223 users | AUTH | ||
| Mann et al. (2020) | Portuguese | USER | BDI | Binary | 221 users | UNK | ||
| Santos et al. (2020) | Portuguese | USER | Self-disclosure | Binary | 224 users | UNK | ||
| Alghamdi et al. (2020) | Arabic | POST | Manual annotation | Binary | 20K posts | UNK | ||
| Li et al. (2020) | Sina Weibo | Chinese | USER | Self-disclosure | Binary | 1.8K users | FREE | 链接 |
| D2S (Yadav et al., 2020) | English | POST | PHQ-9 | PHQ-9 symptoms | 12K posts | AUTH | ||
| Wang et al. (2020) | Sina Weibo | Chinese | USER | Depression-related keywords | Binary | 32K users | FREE | 链接 |
| eRisk2020 (Losada et al., 2020) | English | USER | BDI-II | BDI filled-in | 90 users | DUA | 链接 | |
| Stankevich et al. (2020) | VKontakte | Russian | USER | BDI | BDI score | 1.3K users | UNK | |
| Tabak and Purver (2020) | English, French, German, Italian, Spanish | USER | Self-disclosure | Binary | 5K users | API | ||
| Yazdavar et al. (2020) | English | USER | Manual annotation | Binary | 8.7K users | DUA | ||
| Wołk et al. (2021) | Facebook, Reddit | Polish | POST | Self-disclosure, clinical interview | Binary | 262 users | UNK | |
| Haque et al. (2021) | English | POST | Subreddit participation | Depression vs. suicide | 1.8K posts | FREE | 链接 | |
| Chiu et al. (2021) | English, Chinese | USER | Depression-related keywords | Binary | 520 users | UNK | ||
| Nanomi Arachchige et al. (2021) | Online forums | English | POST | Manual annotation | Depression severity | 2.1K posts | UNK | |
| Hämäläinen et al. (2021) | Online blogs | Thai | POST | Manual annotation | Binary | 900 posts | FREE | 链接 |
| Sherman et al. (2021) | English | USER | Self-disclosure | Binary | 31K users | DUA | ||
| Yang et al. (2021) | Sina Weibo | Chinese | POST | Manual annotation | Depression severity | 6.1K posts | AUTH | |
| eRisk 2021 (Parapar et al., 2021) | English | USER | BDI-II | BDI filled-in | 170 users | DUA | 链接 | |
| Pirayesh et al. (2021) | English | USER | Self-disclosure | Binary | 817 users | AUTH | ||
| Niimi (2021) | TOBYO | Japanese | USER | Blog theme | Binary | 901 users | UNK | |
| Musleh et al. (2021) | Arabic | USER, POST | CES-D and self-disclosure | Binary, DSM-5 symptoms | 4.5K posts | UNK | ||
| Guo et al. (2021) | English | USER | Self-disclosure | Labels for multiple disorders | 7.9 K users | API | ||
| Zhang et al. (2021) | English | USER | Self-disclosure | Binary | 5K users | API | ||
| Cohrdes et al. (2021) | German | POST | Automatic annotation for PHQ-8 symptoms | Binary | 88K posts | AUTH | ||
| Zhou et al. (2021) | English | USER | Self-disclosure | Binary | 1.8M posts |
数据集可用性标签说明
- FREE:数据集公开可用,在线托管,任何人都可以访问。
- AUTH:数据可通过联系论文作者获得。
- API:数据集可通过文章中提供的详细信息使用特定社交媒体平台的API进行合理程度的努力重现。
- DUA:数据仅在签署数据使用协议后可用。有时,可能需要机构审查委员会(IRB)的授权。
- UNK:数据集的可用性未知;作者未提及数据是否对研究社区开放。
- N/AV:由于伦理考虑,数据集不再可用或无法共享。
COVID-19相关数据集标识
数据集中包含COVID-19疫情期间收集的数据,用图标标识。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于多个在线平台上的用户发布内容,涵盖了Twitter、Reddit、Facebook等多个社交平台。数据集的标注过程主要依赖于自我披露(self-disclosure)和手动标注,部分数据集还采用了抑郁相关关键词或心理测量工具(如CES-D、PHQ-9等)进行标注。数据集的构建方式多样,包括从用户级别(USER)和帖子级别(POST)进行数据收集,确保了数据的多样性和广泛性。
使用方法
该数据集可用于多种抑郁检测任务,包括但不限于文本分类、情感分析和心理健康评估。用户可以根据数据集的标注方式选择合适的模型进行训练,如使用BERT、LSTM等深度学习模型进行文本分类。对于公开可用的数据集,用户可以直接下载并进行处理;对于需要API或数据使用协议的数据集,用户需按照相关要求进行申请和使用。此外,数据集的多平台和多语言特性使其适用于跨平台和跨语言的抑郁检测研究。
背景与挑战
背景概述
近年来,随着社交媒体的广泛应用,利用在线平台数据进行抑郁症检测的研究逐渐成为心理学与计算机科学交叉领域的热点。该数据集集合了多个研究团队在2017年至2021年间创建的抑郁症检测数据集,涵盖了Twitter、Reddit、Facebook等多个平台。这些数据集的核心研究问题是通过用户在社交媒体上的自我披露内容,识别其是否存在抑郁症倾向。主要研究人员包括Benton、Yates、Aldarwish、Ahmad等,研究机构涉及多所知名大学和研究机构。这些数据集的创建不仅推动了抑郁症自动检测技术的发展,还为心理健康领域的研究提供了宝贵的数据资源。
当前挑战
该数据集在构建过程中面临诸多挑战。首先,数据来源的多样性使得数据整合与标注过程复杂,不同平台的数据格式、语言表达方式以及用户行为模式各异,增加了数据预处理的难度。其次,抑郁症的诊断本身具有主观性和复杂性,如何通过社交媒体上的文本数据准确捕捉用户的抑郁状态,仍是一个技术难题。此外,数据隐私与伦理问题也是该领域研究的重要挑战,尤其是在涉及用户敏感信息时,如何确保数据使用的合法性与道德性,是研究者必须面对的问题。
常用场景
经典使用场景
该数据集主要用于通过分析在线平台上的用户发布内容来检测抑郁症。其经典使用场景包括利用自然语言处理技术对社交媒体上的文本进行情感分析,识别用户的情绪状态,尤其是检测抑郁症的早期迹象。通过分析用户在Twitter、Reddit等平台上的发帖内容,研究人员可以构建模型,预测用户是否可能患有抑郁症,从而为心理健康干预提供数据支持。
解决学术问题
该数据集解决了在心理健康领域中如何通过社交媒体数据进行抑郁症早期检测的学术问题。传统的抑郁症诊断依赖于临床访谈和问卷调查,而该数据集通过分析用户在社交媒体上的自我披露内容,提供了一种非侵入性的检测方法。这不仅扩展了抑郁症研究的数据来源,还为大规模人群的心理健康监测提供了新的可能性,具有重要的学术价值和实际意义。
实际应用
在实际应用中,该数据集可用于开发心理健康监测工具,帮助医疗机构和心理健康服务提供者及时识别潜在的抑郁症患者。例如,社交媒体平台可以通过集成相关算法,自动筛选出可能需要心理干预的用户,并向他们提供支持资源。此外,该数据集还可用于政府和公共卫生部门的心理健康政策制定,通过大规模数据分析,了解社会心理健康状况的变化趋势。
数据集最近研究
最新研究方向
近年来,基于在线平台数据进行抑郁症检测的研究逐渐成为心理健康领域的前沿课题。该领域的研究方向主要集中在多任务学习、跨平台数据整合以及自动化标注技术的应用上。通过分析用户在社交媒体上的行为模式和语言特征,研究者们致力于开发更为精准的抑郁症检测模型。特别是在COVID-19疫情期间,社交媒体数据的使用显著增加,为研究提供了丰富的数据来源。此外,跨语言和跨文化的抑郁症检测研究也逐渐受到关注,旨在提高模型的普适性和准确性。这些研究不仅有助于心理健康领域的早期干预,还为公共卫生政策的制定提供了科学依据。
以上内容由遇见数据集搜集并总结生成



