Mental-Health-Stigma-Interview-Corpus
收藏arXiv2025-06-02 更新2025-06-04 收录
下载链接:
https://github.com/HanMeng2004/Mental-Health-Stigma-Interview-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为Mental-Health-Stigma-Interview-Corpus,由新加坡国立大学计算机科学系、社会工作系、传播与新媒体系的研究团队创建。该数据集包含684位参与者提供的4141个访谈片段,这些参与者拥有记录在案的社会文化背景。数据集的设计旨在帮助研究如何计算性地检测、中和和反对心理健康污名化。数据集公开可用,为理解和研究心理健康污名化提供了丰富的资源。
This dataset, named Mental-Health-Stigma-Interview-Corpus, was developed by research teams from the Department of Computer Science, Department of Social Work, and Department of Communication and New Media at the National University of Singapore. It comprises 4,141 interview segments provided by 684 participants, all of whom have documented socio-cultural backgrounds. The dataset was designed to facilitate research on computationally detecting, neutralizing, and opposing mental health stigma. It is publicly available and serves as a rich resource for understanding and studying mental health stigma.
提供机构:
新加坡国立大学计算机科学系、社会工作系、传播与新媒体系
创建时间:
2025-05-19
原始信息汇总
Mental Health Stigma Interview Corpus 数据集概述
数据集背景
- 目的:填补自然语言中检测和分析心理健康污名资源的空白,提供基于理论的人机访谈语料库,帮助训练模型更好地识别微妙的污名化形式。
- 论文标题:What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma
- 作者:Han Meng, Yancan Chen, Yunan Li, Yitian Yang, Jungup Lee, Renwen Zhang, Yi-Chieh Lee
- 机构:National University of Singapore
- 会议:ACL 2025 Main
- 论文链接:https://arxiv.org/abs/2505.12727
- 数据访问链接:https://forms.gle/qLSr9nHUymHo8bpr6
数据集内容
- 数据量:4,141个访谈片段,来自684名参与者。
- 标签分布:
- 非污名化:2,232 (53.90%)
- 污名化(责任):394 (9.51%)
- 污名化(社交距离):379 (9.15%)
- 污名化(愤怒):298 (7.20%)
- 污名化(帮助):158 (3.82%)
- 污名化(同情):42 (1.01%)
- 污名化(强制隔离):271 (6.54%)
- 污名化(恐惧):367 (8.86%)
- 数据格式:每个片段包含一个聊天机器人与人类参与者之间的问答互动,内容涉及描述抑郁症患者的短文,以及参与者的社会文化背景信息。
数据集用途
- 训练和评估检测文本中各种心理健康污名形式的模型。
- 开发更具同理心的对话代理。
- 研究污名化语言在自然对话中的表现。
引用格式
bibtex @inproceedings{meng-etal-2025-what, title = "What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma", author = "Meng, Han and Chen, Yancan and Li, Yunan and Yang, Yitian and Lee, Jungup and Zhang, Renwen and Lee, Yi-Chieh", booktitle = "Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics" }
搜集汇总
数据集介绍

构建方式
该数据集通过专家指导的标注流程构建,采用基于归因理论的社会心理学框架,对684名参与者的4,141个访谈片段进行精细标注。数据收集采用人机对话形式,通过精心设计的聊天机器人进行半结构化访谈,访谈问题围绕七个核心归因维度展开。标注过程由经过专业培训的研究助理完成,并经过精神健康专家的多轮校验,最终标注者间一致性系数达到0.71,确保了数据的理论严谨性和标注可靠性。
特点
作为首个基于访谈的大规模心理健康污名语料库,该数据集具有三个显著特征:其一,数据源自真实的人机对话情境,包含丰富的上下文信息和叙事细节;其二,采用理论驱动的标注体系,将污名操作化为七个可测量的归因维度;其三,完整记录了参与者的社会文化背景信息,支持交叉性分析。与社交媒体数据相比,该语料库更准确地反映了日常对话中微妙且情境化的污名表达。
使用方法
该数据集支持多种研究应用:可作为基准数据集训练和评估心理健康污名检测模型;支持细粒度归因分析,探究不同类型污名的语言特征;也可用于对话系统开发,帮助识别和中和交流中的污名表达。使用时应结合提供的理论框架和标注指南,注意不同社会文化背景下的表达差异。数据集已进行去标识化处理,研究者需遵守伦理准则,避免模型放大现有偏见。
背景与挑战
背景概述
Mental-Health-Stigma-Interview-Corpus是由新加坡国立大学计算机科学系、社会工作系及传播与新媒体系的研究团队于2025年创建的专业数据集。该数据集旨在解决心理健康领域中污名化语言的细粒度分类问题,包含来自684名参与者的4,141条专家标注的人机访谈片段。数据集基于归因理论框架,通过系统记录的社文化背景信息,为计算模型检测、中和及对抗心理健康污名提供了理论基础和实证数据。作为首个大规模开源的心理健康污名访谈数据集,其理论指导的标注方案和真实对话语境为自然语言处理和社会计算研究开辟了新方向。
当前挑战
该数据集面临双重挑战:在领域问题层面,心理健康污名的复杂性和隐蔽性使得传统二元分类方法难以捕捉其心理语言学特征,包括诊断术语的随意挪用、委婉表达和微侵犯等微妙形式;在构建过程层面,数据收集需平衡伦理考量与数据效用,专家标注要求同时具备社会心理学理论素养和心理健康领域专业知识,而访谈数据的语境依赖性导致标注一致性难以维持(最终Cohen's κ=0.71)。此外,社交媒体的极化语言与真实访谈的叙事差异,以及跨文化污名表达的可变性,都给数据集的代表性和泛化性带来挑战。
常用场景
经典使用场景
在心理健康领域的研究中,Mental-Health-Stigma-Interview-Corpus数据集被广泛应用于识别和分析针对心理健康问题的污名化语言。该数据集通过专家标注的人类与聊天机器人访谈记录,提供了丰富的语境信息和社会文化背景,使得研究者能够深入探讨污名化语言的心理和社会学根源。数据集中的对话片段涵盖了多种污名化类型,如责任归因、社会距离、愤怒情绪等,为研究心理健康污名化提供了多维度的分析视角。
实际应用
在实际应用中,该数据集可用于开发心理健康领域的对话系统,帮助识别和减少咨询过程中的污名化语言。此外,它还可用于培训心理健康专业人员,提高他们对污名化语言的敏感度。在公共卫生领域,基于该数据集的研究可以为反污名化宣传活动的设计提供依据,促进社会对心理健康问题的理解和接纳。
衍生相关工作
该数据集已衍生出多项经典研究,包括基于深度学习的心理健康污名化检测模型、污名化语言与社会文化因素的关联分析,以及心理健康对话系统的优化。这些工作不仅在计算方法上有所创新,还深化了对心理健康污名化现象的理论理解,为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



