MHSTIGMAINTERVIEW
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.12727v1
下载链接
链接失效反馈官方服务:
资源简介:
MHSTIGMAINTERVIEW数据集是由新加坡国立大学计算机学院、社会工作学院、传播与新媒体系的研究团队创建的。该数据集包含4141个来自684名参与者的采访片段,参与者具有明确的社会文化背景。数据集是基于归因理论构建的,旨在帮助研究人员理解心理健康污名化现象,并训练神经网络模型自动识别和消除污名化。
The MHSTIGMAINTERVIEW dataset was created by a research team from the School of Computing, School of Social Work, and Department of Communication and New Media at the National University of Singapore. This dataset contains 4,141 interview segments from 684 participants with well-defined sociocultural backgrounds. It is constructed based on attribution theory, aiming to assist researchers in understanding the phenomenon of mental health stigma and training neural network models to automatically identify and eliminate stigma.
提供机构:
新加坡国立大学计算机学院、社会工作学院、传播与新媒体系
创建时间:
2025-05-19
搜集汇总
数据集介绍

构建方式
MHSTIGMAINTERVIEW数据集通过精心设计的聊天机器人访谈收集数据,采用理论驱动的标注框架构建而成。研究团队基于归因理论设计了包含7种心理构念的访谈协议,通过UChat平台与684名参与者进行20分钟的对话互动,收集了4,141条访谈片段。数据采集过程严格遵循伦理规范,包括参与者筛选、知情同意和隐私保护措施。标注工作由经过培训的研究助理在心理健康专家指导下完成,采用双盲标注和定期一致性校验,最终Cohen's κ达到0.71,确保了标注质量。
特点
该数据集具有三个显著特征:首先,作为首个基于理论框架构建的大规模心理健康污名访谈语料库,其标注体系源自归因问卷-27量表,涵盖责任归因、社会距离等7个精细维度;其次,数据源自真实的人机对话情境,保留了丰富的语境信息和716个参与者的社会文化背景元数据;最后,与社交媒体数据相比,该数据集呈现出更隐蔽的污名表达形式,毒性评分显著低于常规仇恨言论数据集,揭示了日常对话中微妙而复杂的污名化语言模式。
使用方法
该数据集支持8分类任务(7种污名类型+非污名),可用于训练和评估心理健康污名检测模型。研究者可采用60-20-20的标准划分进行模型训练,建议结合完整标注手册(含定义、关键词和示例规则)设计提示模板以提升大语言模型性能。使用时应特别注意数据不平衡问题(非污名类占比53.9%),推荐采用宏平均指标进行评估。该数据集还可用于探究污名表达与社会文化因素的关联,或作为对话系统开发中的安全评估基准。
背景与挑战
背景概述
MHSTIGMAINTERVIEW数据集由新加坡国立大学的研究团队于2025年创建,旨在解决心理健康领域中污名化语言识别的研究空白。该数据集包含4,141条专家标注的人机对话片段,基于归因理论框架系统化地解构了心理健康污名的认知判断、情感反应和行为倾向。作为首个基于访谈场景的大规模心理健康污名语料库,其理论驱动的标注体系和真实交互语境为计算社会科学与自然语言处理交叉研究提供了关键基础设施,显著推进了污名检测模型的细粒度分类能力。
当前挑战
该数据集面临双重挑战:在领域问题层面,心理健康污名具有高度语境依赖性,其隐性表达常与日常语言交织,导致现有模型难以识别非显性污名(如微歧视或委婉表述);在构建过程中,需克服社会期望偏差对访谈数据的干扰,平衡理论完备性与标注可行性,并解决跨文化背景下污名表征的差异性。此外,标注过程要求标注者具备心理学专业知识以辨识复杂的归因链条,同时需严格保护参与者及标注者的心理健康免受敏感内容影响。
常用场景
经典使用场景
在心理健康研究领域,MHSTIGMAINTERVIEW数据集为探索心理健康污名化现象提供了丰富的理论驱动型标注数据。该数据集通过人机对话访谈形式,记录了684名参与者的4,141段对话片段,涵盖了责任归因、社会距离、愤怒情绪等七种污名化维度的精细标注。其典型应用场景包括训练神经网络模型识别对话中隐含的污名化语言模式,特别是在自然语言处理任务中区分表面中立实则含有偏见的表述。数据集独特的理论框架和专家标注机制,使其成为分析心理健康污名认知-情感-行为三维度的理想实验平台。
解决学术问题
该数据集有效解决了心理健康污名研究中的两大核心问题:首先突破了传统社交媒体数据在语境深度和理论根基上的局限性,通过基于归因理论的标注体系,实现了对污名化语言的细粒度解构;其次弥补了现有资源在社会文化背景信息缺失的缺陷,每条数据均附有参与者的人口统计学特征。这使得研究者能够深入探究污名表达与社会文化因素的关联性,为计算社会科学领域提供了测量复杂社会偏见的新范式。其多维度标注方案尤其有助于揭示那些隐蔽性强、社会接受度高的微妙歧视表达。
衍生相关工作
该数据集已催生多项创新研究:在算法层面,Meng等人(2024)开发了基于多任务学习的污名检测框架,首次实现七维污名属性的联合预测;Lee团队(2023)利用该数据构建了污名中和对话生成系统;在理论探索方面,Giorgi等人(2024)通过分析数据中的文化差异,提出了心理健康污名的跨文化表达模型。数据集还启发了Roesler(2024)将归因理论应用于物质滥用污名研究,证明了其标注框架的可迁移性。
以上内容由遇见数据集搜集并总结生成



