MATCHA-Mental-Health-Dataset
收藏github2025-12-19 更新2025-12-20 收录
下载链接:
https://github.com/Baihan-12/MATCHA-Mental-Health-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
MATCHA(中国多疾病心理健康数据集)是第一个覆盖7种DSM-5障碍的大规模中文微博数据集,整合了来自47k用户的180万条帖子,将社区级超级话题帖子(STP)与个人级主页帖子(HP)联系起来。
MATCHA (Chinese Multi-disease Mental Health Dataset) is the first large-scale Chinese Weibo dataset covering 7 DSM-5 disorders. It integrates 1.8 million posts from 47,000 users, and links community-level super topic posts (STP) with individual-level homepage posts (HP).
创建时间:
2025-12-19
原始信息汇总
MATCHA-Mental-Health-Dataset 数据集概述
数据集简介
MATCHA(Multi-Disorder mental health daTa in CHinA)是首个覆盖7种DSM-5障碍的大规模中文微博数据集。该数据集整合了来自4.7万名用户的180万条帖子,将社区层面的超级话题帖子与个人层面的主页帖子相关联。
关键特性
- 社区驱动:利用微博超级话题作为心理健康讨论的有机语境。
- 大语言模型辅助分层:使用Qwen-3识别临床自我报告的“已识别阳性”用户,准确率超过80%。
- 跨语言对齐:与英文Twitter-STMHD数据集完全对齐,便于比较研究。
数据获取方式
为确保敏感心理健康数据的伦理使用,MATCHA采用受控访问系统,仅用于学术和非商业研究目的。
访问要求
- 学术身份:申请者必须隶属于大学或公认的研究机构。
- 非商业承诺:用户必须同意仅将数据用于非营利性研究。
- 隐私合规:用户必须承诺遵守去标识化协议,并严格禁止尝试重新识别任何个人。
获取步骤
遵循严格的双重验证流程:
- 下载并签署数据使用协议:下载DUA.md(或PDF版本),填写信息并签署。
- 邮件申请:发送邮件至 baihan.li612@gmail.com。
- 主题:[MATCHA Access Request] 您的姓名 - 您的机构
- 附件:已签署的DUA文件
- 内容:提供您用于ModelScope/Hugging Face的电子邮件地址
- 平台提交请求:使用与签署DUA时相同的电子邮件地址,在首选平台提交访问请求:
数据集概览
- 症状分布:与Twitter相比,微博显示出更强的焦虑/抑郁情绪信号。
- 生活事件:以健康为中心的叙述在微博的障碍社区中占主导地位(比Twitter高22.0%)。
数据集图示

搜集汇总
数据集介绍

构建方式
在社交媒体心理健康研究领域,MATCHA数据集的构建体现了创新性与严谨性的结合。该数据集通过整合微博平台上的社区级超级话题帖文与个体级主页帖文,构建了一个涵盖七种DSM-5障碍的大规模中文语料库。其核心构建流程采用了大型语言模型辅助的分层策略,利用Qwen-3模型以超过80%的准确率识别出临床自我报告的“已识别阳性”用户,从而确保了数据样本的临床相关性。整个数据收集与标注流程通过双重验证机制,在保护用户隐私的前提下,系统性地汇聚了来自4.7万用户的180万条帖文,为跨文化心理健康研究奠定了扎实的数据基础。
特点
MATCHA数据集展现出多维度融合的显著特点。作为首个覆盖多种DSM-5障碍的中文微博数据集,它创造性地利用微博超级话题作为心理健康讨论的有机语境,实现了社区驱动的话语分析。该数据集具备完整的跨语言对齐特性,与英文Twitter-STMHD数据集完全对应,支持跨文化比较研究。在症状分布层面,数据显示微博平台表现出比推特更强烈的焦虑/抑郁情绪信号;而在生活事件叙述方面,健康中心的叙事在微博障碍社区中占据主导地位,比推特高出22.0%。这些特征使得数据集既能深入捕捉中文语境下的心理健康表达模式,又能进行有效的国际比较。
使用方法
为保障敏感心理健康数据的伦理使用,MATCHA采用了受控访问系统。研究人员需首先下载并签署数据使用协议,明确承诺仅将数据用于非商业学术研究,并严格遵守去标识化协议。申请者需通过电子邮件提交签署的协议文件,并在ModelScope或Hugging Face平台使用相同邮箱地址提交访问请求,完成双重验证流程。数据集支持研究人员从社区和个体双重维度分析心理健康话语,既可探究超级话题中的群体讨论特征,也能分析用户主页帖文中的个人表达模式,为跨语言心理健康比较研究提供标准化数据接口。
背景与挑战
背景概述
随着社交媒体成为心理健康研究的重要数据源,构建高质量、多维度且跨语言的心理健康数据集成为推动计算精神病学发展的关键。MATCHA数据集由研究人员Baihan Li等人于2024年创建,作为首个覆盖7种DSM-5障碍的大规模中文微博数据集,它整合了来自4.7万用户的180万条帖子,通过社区级超话帖与个人级主页帖的关联,旨在深入探究中国社交媒体语境下的心理健康表达模式。该数据集不仅填补了中文心理健康数据资源的空白,还通过与英文Twitter-STMHD数据集的全方位对齐,为跨文化比较研究提供了坚实基础,显著提升了心理健康监测与干预研究的实证能力。
当前挑战
在心理健康计算领域,精准识别与分类多样化精神障碍症状面临巨大挑战,尤其是如何从非结构化社交媒体文本中提取临床相关信号。MATCHA数据集构建过程中,研究者需应对微博平台语境下语言表达的复杂性与文化特异性,同时确保用户隐私保护与数据伦理合规。利用Qwen-3大模型进行分层标注虽提升了识别准确率,但如何平衡自动化处理与临床有效性仍需深入探索。此外,跨语言对齐工作虽促进了比较研究,但中英文社交媒体在话题分布与表达风格上的差异,如微博更突出的焦虑抑郁情绪信号,也为数据解读带来了新的复杂性。
常用场景
经典使用场景
在心理健康计算研究领域,MATCHA数据集为探索中文社交媒体上的心理健康表达提供了关键资源。其经典使用场景在于利用微博超话社区作为自然语境,结合个体主页帖子,支持对抑郁症、焦虑症等七种DSM-5障碍进行细粒度分析。研究者通过该数据集能够深入挖掘用户在社区讨论与个人表达中的语言模式差异,从而揭示社交媒体环境中心理健康问题的集体与个体表征。
解决学术问题
该数据集有效解决了心理健康研究中跨语言数据稀缺的学术难题,通过完全对齐英文Twitter-STMHD数据集,支持跨文化比较分析。其采用大语言模型辅助分层策略,以超过80%的准确率识别临床自我报告用户,显著提升了数据标注的可靠性。这为探索不同社会文化背景下心理健康症状的表达差异、以及社交媒体平台特性对用户行为的影响提供了实证基础,推动了计算心理健康领域的理论发展。
衍生相关工作
围绕MATCHA数据集,已衍生出多项经典研究工作,主要集中在跨语言心理健康计算领域。研究者利用其与Twitter-STMHD的对齐特性,开展了中英文社交媒体用户症状表达与生活事件叙述的对比分析。这些工作深入探讨了文化因素如何塑造心理健康讨论,并验证了社区驱动数据采集与大语言模型辅助标注方法在构建高质量心理健康数据集方面的有效性,为后续多模态、多平台研究奠定了基础。
以上内容由遇见数据集搜集并总结生成



