抑郁症检测数据集概述
数据集来源
- 数据来源于在线平台发布的帖子,用于抑郁症检测的自然语言处理研究
数据可用性分类
- FREE - 数据集公开可用,可在线访问
- AUTH - 需联系论文作者获取数据
- API - 可通过社交媒体平台API复现数据集
- DUA - 需签署数据使用协议,有时需要IRB授权
- UNK - 数据可用性未知
- N/AV - 数据集不再可用或出于伦理考虑无法共享
数据集列表
2017年数据集
| 数据集名称 |
平台 |
语言 |
级别 |
标注方法 |
标签类型 |
数据规模 |
可用性 |
链接 |
| Multitask |
Twitter |
英语 |
用户 |
自我披露 |
多障碍标签 |
9.5K用户 |
UNK |
|
| RSDD |
Reddit |
英语 |
用户 |
自我披露 |
二分类 |
116K用户 |
N/AV |
|
| Aldarwish和Ahmad |
Twitter, Facebook, LiveJournal |
英语 |
帖子 |
人工标注 |
二分类,DSM-IV症状 |
6.7K帖子 |
API |
|
| Reece和Danforth |
Instagram |
英语 |
用户 |
CES-D |
二分类 |
166用户 |
UNK |
|
| Shen等 |
Twitter |
英语 |
用户 |
自我披露 |
二分类 |
2.8K用户 |
FREE |
https://github.com/sunlightsgy/MDDL |
| 160Users |
Twitter |
英语 |
用户,帖子 |
自我披露 |
二分类 |
160用户,8K帖子 |
AUTH |
|
| SAD语料库 |
Twitter |
英语 |
帖子 |
人工标注 |
症状,心理压力源 |
9.3K帖子 |
API |
|
| Vedula和Parthasarathy |
Twitter |
英语 |
用户 |
抑郁症相关关键词 |
二分类 |
150用户 |
API |
|
| Hiraga |
日本博客网站 |
日语 |
用户 |
自我披露 |
二分类 |
101用户 |
UNK |
|
| eRisk2017 |
Reddit |
英语 |
用户 |
自我披露 |
二分类 |
887用户 |
DUA |
https://erisk.irlab.org/2017/index.html |
| Yazdavar等 |
Twitter |
英语 |
用户 |
自我披露 |
二分类 |
47K用户 |
UNK |
|
2018年数据集
| 数据集名称 |
平台 |
语言 |
级别 |
标注方法 |
标签类型 |
数据规模 |
可用性 |
链接 |
| Rojas-Barahona等 |
Koko平台 |
英语 |
帖子 |
人工标注 |
CBT概念 |
4035帖子 |
AUTH |
https://github.com/YinpeiDai/NAUM |
| Pirina和Çöltekin |
Reddit |
英语 |
帖子 |
子版块参与 |
二分类 |
3.6K帖子 |
FREE |
https://github.com/Inusette/Identifying-depression/tree/master/Data_Collector |
| Eichstaedt等 |
Facebook |
英语 |
用户 |
医疗记录诊断 |
二分类 |
683用户 |
UNK |
|
| Seabrook等 |
Twitter, Facebook |
英语 |
用户 |
PHQ-9 |
抑郁严重程度 |
78用户 |
N/AV |
|
| Ricard等 |
Instagram |
英语 |
用户 |
PHQ-8 |
二分类 |
749用户 |
UNK |
|
| Shen等 |
新浪微博 |
中文 |
用户 |
自我披露 |
二分类 |
1.1K用户 |
UNK |
|
| TRT |
Reddit |
英语 |
用户 |
自我披露 |
二分类 |
12K用户 |
UNK |
|
| eRisk2018 |
Reddit |
英语 |
用户 |
自我披露 |
二分类 |
1.1K用户 |
DUA |
https://erisk.irlab.org/2018/index.html |
| Loveys等 |
7 Cups of Tea |
英语 |
用户 |
自我披露 |
二分类 |
1.9K用户 |
UNK |
|
| Chen等a |
Twitter |
英语 |
用户 |
自我披露 |
多障碍标签 |
7.9K用户 |
API |
|
| Chen等b |
Twitter |
英语 |
用户 |
自我披露 |
二分类 |
7K用户 |
API |
|
| RSDD-Time |
Reddit |
英语 |
用户 |
自我披露 |
多障碍标签 |
598用户 |
N/AV |
|
| Islam等 |
Facebook |
英语 |
帖子 |
- |
二分类 |
7K帖子 |
FREE |
https://github.com/ranju12345/Depression-Anxiety-Facebook-page-Comments-Text |
| SMHD |
Reddit |
英语 |
用户 |
自我披露 |
多障碍标签 |
350K用户 |
N/AV |
|
| Wu等 |
Facebook |
中文 |
用户 |
CES-D |
二分类 |
1.4K用户 |
UNK |
|
2019年数据集
| 数据集名称 |
平台 |
语言 |
级别 |
标注方法 |
标签类型 |
数据规模 |
可用性 |
链接 |
| Hemtanon和Kittiphattanabawon |
Facebook |
泰语 |
帖子 |
人工标注 |
二分类 |
1.5K帖子 |
UNK |
|
| Wang等 |
新浪微博 |
中文 |
帖子 |
人工标注 |
抑郁严重程度 |
13.9K用户 |
UNK |
|
| Gui等 |
Twitter |
英语 |
用户 |
自我披露 |
二分类 |
2.8K用户 |
API |
|
| Chandra Guntuku等 |
Twitter |
英语 |
用户 |
BDI |
二分类 |
887用户 |
UNK |
|
| Almouzini等 |
Twitter |
英语 |
用户,帖子 |
人工标注 |
二分类 |
89用户 |
UNK |
|
| Leis等 |
Twitter |
西班牙语 |
用户,帖子 |
自我披露,人工标注 |
二分类 |
540用户,1K帖子 |
FREE |
https://www.kaggle.com/datasets/francescoronzano/spanish-tweets-suggesting-depression |
| Coello-Guilarte等 |
Twitter |
西班牙语 |
用户 |
自我披露 |
二分类 |
316用户 |
FREE |
https://ccc.inaoep.mx/~mmontesg/resources/CrossLingualDepression.zip |
| Peng等 |
新浪微博 |
中文 |
用户 |
人工标注 |
二分类 |
387用户 |
UNK |
|
| eRisk2019 |
Reddit |
英语 |
用户 |
BDI-II |
BDI填写 |
20用户 |
DUA |
https://erisk.irlab.org/2019/index.html |
| Uddin等 |
Twitter |
孟加拉语 |
帖子 |
人工标注 |
二分类 |
3.8K帖子 |
UNK |
|
2020年数据集
| 数据集名称 |
平台 |
语言 |
级别 |
标注方法 |
标签类型 |
数据规模 |
可用性 |
链接 |
| Yao等 |
新浪微博 |
中文 |
用户 |
人工,自动标注 |
二分类 |
2.7K用户 |
UNK |
|
| Owen等 |
Twitter |
英语 |
帖子 |
人工标注 |
二分类 |
1K帖子 |
FREE |
https://bitbucket.org/nlpcardiff/preemptive-depression-anxiety-twitter/src/master/ |
| Bathina等 |
Twitter |
英语 |
用户 |
自我披露 |
二分类 |
1.2K用户 |
AUTH |
https://github.com/mctenthij/CDS_paper |
| Ríssola等 |
Reddit |
英语 |
帖子 |
自我披露,启发式 |
二分类 |
14K帖子 |
DUA |
|
| Birnbaum等 |
Facebook |
英语 |
用户 |
医疗记录诊断 |
二分类 |
223用户 |
AUTH |
|
| Mann等 |
Instagram |
葡萄牙语 |
用户 |
BDI |
二分类 |
221用户 |
UNK |
|
| Santos等 |
Twitter |
葡萄牙语 |
用户 |
自我披露 |
二分类 |
224用户 |
UNK |
|
| Alghamdi等 |
在线论坛 |
阿拉伯语 |
帖子 |
人工标注 |
二分类 |
20K帖子 |
UNK |
|
| Li等 |
新浪微博 |
中文 |
用户 |
自我披露 |
二分类 |
1.8K用户 |
FREE |
https://github.com/omfoggynight/Chinese-Depression-domain-Lexicon |
| D2S |
Twitter |
英语 |
帖子 |
PHQ-9 |
PHQ-9症状 |
12K帖子 |
AUTH |
|
| Wang等 |
新浪微博 |
中文 |
用户 |
抑郁症相关关键词 |
二分类 |
32K用户 |
FREE |
https://github.com/aidenwang9867/Weibo-User-Depression-Detection-Dataset |
| eRisk2020 |
Reddit |
英语 |
用户 |
BDI-II |
BDI填写 |
90用户 |
DUA |
https://erisk.irlab.org/2020/index.html |
| Stankevich等 |
VKontakte |
俄语 |
用户 |
BDI |
BDI分数 |
1.3K用户 |
UNK |
|
| Tabak和Purver |
Twitter |
英语,法语,德语,意大利语,西班牙语 |
用户 |
自我披露 |
二分类 |
5K用户 |
API |
|
| Yazdavar等 |
Twitter |
英语 |
用户 |
人工标注 |
二分类 |
8.7K用户 |
DUA |
|
2021年数据集
| 数据集名称 |
平台 |
语言 |
级别 |
标注方法 |
标签类型 |
数据规模 |
可用性 |
链接 |
| Wołk等 |
Facebook, Reddit |
波兰语 |
帖子 |
自我披露,临床访谈 |
二分类 |
262用户 |
UNK |
|
| Haque等 |
Reddit |
英语 |
帖子 |
子版块参与 |
抑郁vs自杀 |
1.8K帖子 |
FREE |
https://github.com/ayaanzhaque/SDCNL |
| Chiu等 |
Instagram |
英语,中文 |
用户 |
抑郁症相关关键词 |
二分类 |
520用户 |
UNK |
|
| Nanomi Arachchige等 |
在线论坛 |
英语 |
帖子 |
人工标注 |
抑郁严重程度 |
2.1K帖子 |
UNK |
|
| Hämäläinen等 |
在线博客 |
泰语 |
帖子 |
人工标注 |
二分类 |
900帖子 |
FREE |
https://zenodo.org/record/4734552 |
| Sherman等 |
Reddit |
英语 |
用户 |
自我披露 |
二分类 |
31K用户 |
DUA |
|
| Yang等 |
新浪微博 |
中文 |
帖子 |
人工标注 |
抑郁严重程度 |
6.1K帖子 |
AUTH |
|
| eRisk 2021 |
Reddit |
英语 |
用户 |
BDI-II |
BDI填写 |
170用户 |
DUA |
https://erisk.irlab.org/2021/index.html |
| Pirayesh等 |
Twitter |
英语 |
用户 |
自我披露 |
二分类 |
817用户 |
AUTH |
|
| Niimi |
TOBYO |
日语 |
用户 |
博客主题 |
二分类 |
901用户 |
UNK |
|
引用信息
@article{Bucur2024state,
author={Bucur, Ana-Maria and Moldovan, Andreea-Codrina and Parvatikar, Krutika and Zampieri, Marcos and KhudaBukhsh, Ashiqur R. and Dinu, Liviu P.},
journal={IEEE Journal of Biomedical and Health Informatics},
title={On the State of NLP Approaches to Modeling Depression in Social Media: A Post-COVID-19 Outlook},
year={2025},
pages={1-13},
doi={10.1109/JBHI.2025.3540507}}
@inproceedings{bucur2025datasets,
title = "Datasets for Depression Modeling in Social Media: An Overview",
author = "Bucur, Ana-Maria and Moldovan, Andreea and Parvatikar, Krutika and Zampieri, Marcos and Khudabukhsh, Ashiqur and Dinu, Liviu",
booktitle = "Proceedings of the 10th Workshop on Computational Linguistics and Clinical Psychology (CLPsych 2025)",
month = may,
year = "2025",
address = "Albuquerque, New Mexico",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.clpsych-1.10/",
pages = "116--126",
}