five

553个真实世界的半结构化访谈数据集

收藏
arXiv2025-10-17 更新2025-10-18 收录
下载链接:
https://arxiv.org/html/2510.14937v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含553个真实世界的半结构化访谈,每个访谈都与临床诊断结果配对,用于评估抑郁症、焦虑症和创伤后应激障碍等精神健康问题的早期诊断。数据集来自美国多个行为研究项目,参与者回答了五个关于日常生活、挑战性事件、应对策略、不愉快事件和积极经历的标准化问题。访谈被记录并转录,每个访谈的平均长度约为2,955个单词。该数据集旨在为自然语言处理模型提供真实且具有生态效度的基准,以评估其从自然语言中推断精神健康问题的能力。

This dataset contains 553 real-world semi-structured interviews, each paired with clinical diagnostic results, for evaluating early diagnosis of mental health conditions including depression, anxiety, and post-traumatic stress disorder (PTSD). The dataset is sourced from multiple behavioral research projects across the United States. Participants responded to five standardized questions concerning daily life, challenging events, coping strategies, unpleasant events, and positive experiences. All interviews were recorded and transcribed, with an average length of approximately 2,955 words per interview. This dataset aims to provide a realistic and ecologically valid benchmark for natural language processing (NLP) models to assess their capability of inferring mental health conditions from natural language.
提供机构:
肯特州立大学计算机科学系、肯特州立大学心理科学系
创建时间:
2025-10-17
搜集汇总
数据集介绍
main_image_url
构建方式
在精神健康评估领域,真实临床对话的稀缺性促使研究者构建了包含553个半结构化访谈的数据集。该数据集通过行为研究项目收集,参与者为美国成年人,涵盖不同年龄、性别与教育背景。访谈采用标准化流程,每位受访者依次回答五个预设问题,涉及日常活动、应对策略及情感经历等主题。专业访谈者提供统一引导,确保数据一致性;语音记录经转写后与基于DSM标准的临床诊断标签配对,形成多维度标注文本。
特点
该数据集的核心价值在于其生态效度与多标签架构。所有访谈源自真实临床环境,完整保留自然语言中的情感波动与叙事细节,规避了传统自陈式量表的社交偏好偏差。数据覆盖抑郁发作、创伤后应激障碍与焦虑障碍三类诊断,支持共病现象研究。样本人口学分布均衡,涵盖不同种族与教育水平,增强了模型的泛化能力。长达15分钟的对话内容为模型捕捉长程语境依赖提供了丰富素材。
使用方法
该数据集适用于自然语言处理与临床心理学的交叉研究。使用者可将其作为多标签分类任务的基准,通过提取访谈文本特征预测精神障碍。针对长文本处理挑战,建议采用分块推理策略:将转录文本划分为512至2048词元的重叠片段,分别输入模型后聚合预测结果。研究者可对比零样本提示、参数高效微调等范式,评估模型在真实场景下的敏感性与特异性。数据需遵循80%训练与20%测试的划分原则,结合上采样技术缓解类别不平衡问题。
背景与挑战
背景概述
随着全球心理健康障碍负担日益加重,肯特州立大学计算机科学与心理学系研究团队于2025年发布了553个真实世界半结构化访谈数据集,旨在应对抑郁症、焦虑症和创伤后应激障碍的漏诊误诊问题。该数据集通过标准化访谈流程收集了涵盖多年龄段、性别与种族群体的临床对话转录文本,并与基于DSM标准的金标准诊断标签配对,为开发可扩展的AI辅助诊断工具提供了生态效度更高的自然语言数据基础。
当前挑战
在解决心理健康障碍多标签分类问题时,该数据集面临临床高共病性导致的症状重叠挑战,以及社会期望偏差对语言表达的干扰。构建过程中需克服长访谈文本与有限上下文模型的兼容性问题,同时需在数据标注不平衡(阳性样本不足20%)条件下保持模型敏感性,此外还需在参数高效微调与计算资源约束间寻求最优平衡。
常用场景
经典使用场景
在临床心理学与计算语言学交叉领域,该数据集被广泛用于开发多标签分类模型,以识别抑郁症、创伤后应激障碍和焦虑症的早期症状。研究者通过半结构化访谈文本,构建端到端的机器学习框架,利用大语言模型的零样本推理能力或参数高效微调技术,实现对自然语言中情绪线索的自动化提取与诊断预测。
解决学术问题
该数据集有效应对了传统心理健康评估工具的主观性与共病诊断难题,通过真实临床对话与标准诊断标签的配对,为构建可扩展的客观筛查系统提供了数据基础。其意义在于突破了自报告问卷的社会期望偏差限制,推动了基于语境感知的早期干预研究,并为低资源环境下的精神健康服务革新奠定了实证基础。
衍生相关工作
基于该数据集衍生的经典研究包括融合低秩自适应技术的RoBERTa模型优化,其在PTSD检测中达到89%的准确率;同时催生了针对长文本分块推理的Meta-LLaMA应用框架,以及结合情感轨迹分析与人口统计学特征的多模态诊断模型,进一步拓展了计算精神医学的方法论边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作