five

CNSocialDepress

收藏
arXiv2025-10-13 更新2025-10-15 收录
下载链接:
https://github.com/bucuram/depression-datasets-nlp
下载链接
链接失效反馈
官方服务:
资源简介:
CNSocialDepress 是一个用于抑郁症风险检测的中国社交媒体数据集,包含 44,178 条文本,由 233 名用户产生。其中,心理专家标注了 10,306 个与抑郁症相关的片段。该数据集提供二元风险标签和结构化的多维心理属性,可以进行可解释和细粒度的抑郁症信号分析。实验结果表明,该数据集在多种自然语言处理任务中都有很好的应用价值,包括结构化心理特征分析和大语言模型的微调。该数据集为抑郁症风险识别和心理学分析提供了有效的工具,有助于开发针对中国人群的心理健康应用程序。

CNSocialDepress is a Chinese social media dataset for depression risk detection, consisting of 44,178 texts generated by 233 users. Among them, 10,306 depression-related segments were annotated by professional psychologists. This dataset provides binary risk labels and structured multi-dimensional psychological attributes, enabling interpretable and fine-grained analysis of depression-related signals. Experimental results demonstrate that this dataset has strong application value across various natural language processing tasks, including structured psychological feature analysis and fine-tuning of large language models (LLMs). This dataset serves as an effective tool for depression risk identification and psychological analysis, facilitating the development of mental health applications targeting the Chinese population.
提供机构:
多机构合作
创建时间:
2025-10-13
原始信息汇总

抑郁症检测数据集概述

数据集来源

  • 数据来源于在线平台发布的帖子,用于抑郁症检测的自然语言处理研究

数据可用性分类

  • FREE - 数据集公开可用,可在线访问
  • AUTH - 需联系论文作者获取数据
  • API - 可通过社交媒体平台API复现数据集
  • DUA - 需签署数据使用协议,有时需要IRB授权
  • UNK - 数据可用性未知
  • N/AV - 数据集不再可用或出于伦理考虑无法共享

数据集列表

2017年数据集

数据集名称 平台 语言 级别 标注方法 标签类型 数据规模 可用性 链接
Multitask Twitter 英语 用户 自我披露 多障碍标签 9.5K用户 UNK
RSDD Reddit 英语 用户 自我披露 二分类 116K用户 N/AV
Aldarwish和Ahmad Twitter, Facebook, LiveJournal 英语 帖子 人工标注 二分类,DSM-IV症状 6.7K帖子 API
Reece和Danforth Instagram 英语 用户 CES-D 二分类 166用户 UNK
Shen等 Twitter 英语 用户 自我披露 二分类 2.8K用户 FREE https://github.com/sunlightsgy/MDDL
160Users Twitter 英语 用户,帖子 自我披露 二分类 160用户,8K帖子 AUTH
SAD语料库 Twitter 英语 帖子 人工标注 症状,心理压力源 9.3K帖子 API
Vedula和Parthasarathy Twitter 英语 用户 抑郁症相关关键词 二分类 150用户 API
Hiraga 日本博客网站 日语 用户 自我披露 二分类 101用户 UNK
eRisk2017 Reddit 英语 用户 自我披露 二分类 887用户 DUA https://erisk.irlab.org/2017/index.html
Yazdavar等 Twitter 英语 用户 自我披露 二分类 47K用户 UNK

2018年数据集

数据集名称 平台 语言 级别 标注方法 标签类型 数据规模 可用性 链接
Rojas-Barahona等 Koko平台 英语 帖子 人工标注 CBT概念 4035帖子 AUTH https://github.com/YinpeiDai/NAUM
Pirina和Çöltekin Reddit 英语 帖子 子版块参与 二分类 3.6K帖子 FREE https://github.com/Inusette/Identifying-depression/tree/master/Data_Collector
Eichstaedt等 Facebook 英语 用户 医疗记录诊断 二分类 683用户 UNK
Seabrook等 Twitter, Facebook 英语 用户 PHQ-9 抑郁严重程度 78用户 N/AV
Ricard等 Instagram 英语 用户 PHQ-8 二分类 749用户 UNK
Shen等 新浪微博 中文 用户 自我披露 二分类 1.1K用户 UNK
TRT Reddit 英语 用户 自我披露 二分类 12K用户 UNK
eRisk2018 Reddit 英语 用户 自我披露 二分类 1.1K用户 DUA https://erisk.irlab.org/2018/index.html
Loveys等 7 Cups of Tea 英语 用户 自我披露 二分类 1.9K用户 UNK
Chen等a Twitter 英语 用户 自我披露 多障碍标签 7.9K用户 API
Chen等b Twitter 英语 用户 自我披露 二分类 7K用户 API
RSDD-Time Reddit 英语 用户 自我披露 多障碍标签 598用户 N/AV
Islam等 Facebook 英语 帖子 - 二分类 7K帖子 FREE https://github.com/ranju12345/Depression-Anxiety-Facebook-page-Comments-Text
SMHD Reddit 英语 用户 自我披露 多障碍标签 350K用户 N/AV
Wu等 Facebook 中文 用户 CES-D 二分类 1.4K用户 UNK

2019年数据集

数据集名称 平台 语言 级别 标注方法 标签类型 数据规模 可用性 链接
Hemtanon和Kittiphattanabawon Facebook 泰语 帖子 人工标注 二分类 1.5K帖子 UNK
Wang等 新浪微博 中文 帖子 人工标注 抑郁严重程度 13.9K用户 UNK
Gui等 Twitter 英语 用户 自我披露 二分类 2.8K用户 API
Chandra Guntuku等 Twitter 英语 用户 BDI 二分类 887用户 UNK
Almouzini等 Twitter 英语 用户,帖子 人工标注 二分类 89用户 UNK
Leis等 Twitter 西班牙语 用户,帖子 自我披露,人工标注 二分类 540用户,1K帖子 FREE https://www.kaggle.com/datasets/francescoronzano/spanish-tweets-suggesting-depression
Coello-Guilarte等 Twitter 西班牙语 用户 自我披露 二分类 316用户 FREE https://ccc.inaoep.mx/~mmontesg/resources/CrossLingualDepression.zip
Peng等 新浪微博 中文 用户 人工标注 二分类 387用户 UNK
eRisk2019 Reddit 英语 用户 BDI-II BDI填写 20用户 DUA https://erisk.irlab.org/2019/index.html
Uddin等 Twitter 孟加拉语 帖子 人工标注 二分类 3.8K帖子 UNK

2020年数据集

数据集名称 平台 语言 级别 标注方法 标签类型 数据规模 可用性 链接
Yao等 新浪微博 中文 用户 人工,自动标注 二分类 2.7K用户 UNK
Owen等 Twitter 英语 帖子 人工标注 二分类 1K帖子 FREE https://bitbucket.org/nlpcardiff/preemptive-depression-anxiety-twitter/src/master/
Bathina等 Twitter 英语 用户 自我披露 二分类 1.2K用户 AUTH https://github.com/mctenthij/CDS_paper
Ríssola等 Reddit 英语 帖子 自我披露,启发式 二分类 14K帖子 DUA
Birnbaum等 Facebook 英语 用户 医疗记录诊断 二分类 223用户 AUTH
Mann等 Instagram 葡萄牙语 用户 BDI 二分类 221用户 UNK
Santos等 Twitter 葡萄牙语 用户 自我披露 二分类 224用户 UNK
Alghamdi等 在线论坛 阿拉伯语 帖子 人工标注 二分类 20K帖子 UNK
Li等 新浪微博 中文 用户 自我披露 二分类 1.8K用户 FREE https://github.com/omfoggynight/Chinese-Depression-domain-Lexicon
D2S Twitter 英语 帖子 PHQ-9 PHQ-9症状 12K帖子 AUTH
Wang等 新浪微博 中文 用户 抑郁症相关关键词 二分类 32K用户 FREE https://github.com/aidenwang9867/Weibo-User-Depression-Detection-Dataset
eRisk2020 Reddit 英语 用户 BDI-II BDI填写 90用户 DUA https://erisk.irlab.org/2020/index.html
Stankevich等 VKontakte 俄语 用户 BDI BDI分数 1.3K用户 UNK
Tabak和Purver Twitter 英语,法语,德语,意大利语,西班牙语 用户 自我披露 二分类 5K用户 API
Yazdavar等 Twitter 英语 用户 人工标注 二分类 8.7K用户 DUA

2021年数据集

数据集名称 平台 语言 级别 标注方法 标签类型 数据规模 可用性 链接
Wołk等 Facebook, Reddit 波兰语 帖子 自我披露,临床访谈 二分类 262用户 UNK
Haque等 Reddit 英语 帖子 子版块参与 抑郁vs自杀 1.8K帖子 FREE https://github.com/ayaanzhaque/SDCNL
Chiu等 Instagram 英语,中文 用户 抑郁症相关关键词 二分类 520用户 UNK
Nanomi Arachchige等 在线论坛 英语 帖子 人工标注 抑郁严重程度 2.1K帖子 UNK
Hämäläinen等 在线博客 泰语 帖子 人工标注 二分类 900帖子 FREE https://zenodo.org/record/4734552
Sherman等 Reddit 英语 用户 自我披露 二分类 31K用户 DUA
Yang等 新浪微博 中文 帖子 人工标注 抑郁严重程度 6.1K帖子 AUTH
eRisk 2021 Reddit 英语 用户 BDI-II BDI填写 170用户 DUA https://erisk.irlab.org/2021/index.html
Pirayesh等 Twitter 英语 用户 自我披露 二分类 817用户 AUTH
Niimi TOBYO 日语 用户 博客主题 二分类 901用户 UNK

引用信息

  • COVID相关数据集引用:

@article{Bucur2024state, author={Bucur, Ana-Maria and Moldovan, Andreea-Codrina and Parvatikar, Krutika and Zampieri, Marcos and KhudaBukhsh, Ashiqur R. and Dinu, Liviu P.}, journal={IEEE Journal of Biomedical and Health Informatics}, title={On the State of NLP Approaches to Modeling Depression in Social Media: A Post-COVID-19 Outlook}, year={2025}, pages={1-13}, doi={10.1109/JBHI.2025.3540507}}

  • 其他社交媒体数据集引用:

@inproceedings{bucur2025datasets, title = "Datasets for Depression Modeling in Social Media: An Overview", author = "Bucur, Ana-Maria and Moldovan, Andreea and Parvatikar, Krutika and Zampieri, Marcos and Khudabukhsh, Ashiqur and Dinu, Liviu", booktitle = "Proceedings of the 10th Workshop on Computational Linguistics and Clinical Psychology (CLPsych 2025)", month = may, year = "2025", address = "Albuquerque, New Mexico", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.clpsych-1.10/", pages = "116--126", }

搜集汇总
数据集介绍
main_image_url
构建方式
在心理健康计算语言学领域,CNSocialDepress数据集通过严谨的多阶段流程构建而成。该数据集源自新浪微博平台的SWDD基准数据集,涵盖233名用户的44,178条文本。构建过程由心理学专家团队主导,依据DSM-5诊断标准和PHQ-9量表制定了包含六个维度的标注框架,其中三个主要标准聚焦抑郁心理状态、医学表达和临床症状,三个次要标准关注负面情绪、外部诱因和语言模式。专家通过内部开发的标注平台进行多轮交叉验证,最终形成包含10,306个抑郁相关片段的高质量标注数据。
特点
该数据集在中文心理健康计算领域具有显著特色。其核心优势在于同时提供用户级别的二元风险标签和细粒度的六维心理属性标注,实现了从简单分类到可解释分析的跨越。数据集包含20,360条抑郁用户文本和23,818条非抑郁用户文本,在六个维度上呈现出明显的分布差异,特别是在抑郁心理状态维度,抑郁用户的标注数量达到2127个,远高于非抑郁用户的117个。这种结构化标注设计使得数据集不仅支持传统的分类任务,更能为心理特征分析和大型语言模型微调提供丰富语义信息。
使用方法
该数据集支持多元化的研究应用范式。在基础任务层面,可用于训练二元抑郁风险分类模型,通过用户微博文本预测抑郁状态。在高级应用层面,其结构化心理属性支持细粒度分析任务,包括心理特征画像构建和抑郁信号的可解释性研究。针对大语言模型应用,数据集特别适合进行心理分析生成任务的微调,实验表明基于该数据集微调的模型在生成质量上显著优于少样本学习。此外,数据集还支持跨任务评估,研究者可同时考察模型在分类准确性和分析深度方面的表现。
背景与挑战
背景概述
随着全球抑郁症患病率的持续攀升,心理健康领域对自动化风险检测技术的需求日益迫切。CNSocialDepress数据集于2025年由跨国研究团队联合发布,整合了法国国立东方语言文化学院、北京大学、北京师范大学等机构的心理学与计算语言学专家智慧。该数据集聚焦中文社交媒体场景下的抑郁症风险识别,突破传统二分类标注的局限,通过专业心理学标注构建包含六维结构化心理特征的分析框架。其核心价值在于首次实现用户级抑郁风险检测与可解释性分析的深度融合,为中文语境下心理健康计算研究提供了关键基础设施。
当前挑战
在解决抑郁症检测领域问题时,该数据集面临多维度挑战:需克服社交媒体非正式表达与临床诊断标准间的语义鸿沟,平衡文本情感强度与病理特征的可量化表征。构建过程中遭遇的挑战包括:专业标注依赖心理学专家人工判别导致扩展性受限,原始数据源自单一平台可能引入样本选择偏差,中文方言与隐喻表达对标注一致性造成干扰。此外,隐私保护要求与数据匿名化处理进一步增加了高质量语料构建的复杂度。
常用场景
经典使用场景
在心理健康计算语言学领域,CNSocialDepress数据集为基于社交媒体的抑郁风险检测提供了标准化评估平台。该数据集通过整合微博用户的文本内容与专家标注的六维心理特征,支撑了从二元分类到结构化分析的多层次研究范式。其经典应用体现在训练大语言模型进行细粒度抑郁信号识别,同时为心理学特征提取和语义模式挖掘提供了丰富语料,显著推进了中文语境下自动化心理评估方法的发展。
实际应用
在公共卫生实践层面,该数据集支撑的算法模型已应用于社交媒体抑郁风险早期预警系统。通过自动化分析用户生成内容中的心理特征,可为心理咨询平台提供潜在高危用户筛查服务。其结构化输出模式还能辅助生成初步心理评估报告,在数字心理健康服务中实现从监测到干预的技术闭环,为构建智能化精神卫生防护网络提供关键数据支撑。
衍生相关工作
基于该数据集衍生的经典研究包括心理感知大语言模型PsyCoLLM的开发,以及融合多维特征的抑郁检测框架MHA。这些工作通过引入注意力机制与知识蒸馏技术,显著提升了模型在中文社交媒体上的心理状态推理能力。后续研究进一步拓展了结构化心理分析在生成式模型中的应用,推动心理健康计算向可解释、多模态的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作