PsyInterview
收藏arXiv2025-01-15 更新2025-01-17 收录
下载链接:
http://arxiv.org/abs/2501.08769v1
下载链接
链接失效反馈官方服务:
资源简介:
PsyInterview数据集由香港大学和清华大学的研究团队创建,旨在通过合成临床访谈数据来支持情感障碍的筛查。该数据集包含1157条多轮访谈对话,涵盖了情感障碍、其他精神障碍及健康对照组。数据来源广泛,包括临床案例手册、研究论文和开源数据集。每条对话平均包含14个话语,每个话语平均24个词。数据集通过四阶段的数据生成管道创建,确保了数据的多样性和真实性。PsyInterview数据集的应用领域主要集中在心理健康领域,特别是情感障碍的筛查和临床访谈自动化,旨在减轻心理医生的工作负担并提高筛查效率。
The PsyInterview dataset was developed by a research team from The University of Hong Kong and Tsinghua University, aiming to support the screening of affective disorders via synthetic clinical interview data. This dataset contains 1,157 multi-turn interview conversations, covering three groups: patients with affective disorders, those with other mental disorders, and healthy controls. It draws data from diverse sources, including clinical case manuals, research papers, and open-source datasets. Each conversation contains an average of 14 utterances, with each utterance averaging 24 words. The dataset was constructed via a four-stage data generation pipeline, ensuring its diversity and authenticity. The PsyInterview dataset is primarily applied in the field of mental health, particularly for affective disorder screening and clinical interview automation, with the goal of reducing the workload of psychologists and improving screening efficiency.
提供机构:
香港大学脑与认知科学国家重点实验室、香港大学神经心理学与人类神经科学实验室、清华大学CoAI小组、清华大学人工智能研究所、清华大学智能技术与系统国家重点实验室、清华大学北京信息科学与技术国家研究中心
创建时间:
2025-01-15
搜集汇总
数据集介绍

构建方式
PsyInterview数据集的构建基于一个四阶段的数据生成管道,旨在将临床案例描述转化为精细的精神科医生与患者之间的对话。首先,从临床案例书、研究论文和开源数据集中收集详细的客户信息。接着,使用标准化的模板提取关键信息,如患者的主诉、病史等。随后,根据精神病学访谈指南将这些信息转化为原始对话。最后,通过去除敏感信息和重复内容,对对话进行精细化处理,确保数据的质量和隐私保护。整个过程结合了自动化生成和人工审核,确保了数据的高质量和多样性。
特点
PsyInterview数据集包含了1,157个多轮对话,涵盖了情绪障碍、其他精神障碍以及健康对照组。每个对话平均包含14轮发言,每轮发言约24个单词。数据集的特点在于其多样性和真实性,涵盖了广泛的情绪障碍类型,并且通过临床心理学家的评估确保了对话的自然性和逻辑性。此外,数据集还提供了详细的筛查结果和解释,增强了其在临床筛查中的实用性。
使用方法
PsyInterview数据集可用于训练和评估基于大语言模型(LLM)的情绪障碍筛查系统。通过该数据集,研究人员可以开发出能够区分粗粒度(如焦虑或抑郁障碍)和细粒度(如重度抑郁障碍)情绪障碍的模型。此外,数据集还可用于训练虚拟访谈助手,帮助精神科医生自动化初步访谈过程。使用该数据集时,研究人员可以通过对话历史进行筛查,并结合解释结果来增强模型的透明度和可信度。数据集的高质量和多样性使其在临床筛查和访谈任务中表现出色。
背景与挑战
背景概述
PsyInterview数据集由香港大学和清华大学的研究团队于2023年开发,旨在通过合成临床访谈数据,推动基于大语言模型(LLMs)的情感障碍筛查工具的发展。该数据集包含1,157个多轮对话,涵盖了抑郁和焦虑等情感障碍的筛查与解释。研究团队通过自动化生成临床访谈数据,解决了真实临床数据稀缺和隐私保护的问题,为训练大规模LLMs提供了多样化的场景。PsyInterview的推出不仅为情感障碍的早期筛查提供了新的工具,还为心理健康领域的AI应用开辟了新的研究方向。
当前挑战
PsyInterview数据集在构建和应用过程中面临多重挑战。首先,情感障碍的筛查需要高度精确的分类能力,尤其是在区分粗粒度(如焦虑或抑郁)和细粒度(如重度抑郁症)障碍时,模型的表现往往受到数据多样性和样本量的限制。其次,数据生成过程中,如何确保合成对话的自然性和临床相关性是一个关键问题。尽管研究团队通过专家评估和标准化模板提高了数据质量,但合成数据与真实临床对话之间的差距仍需进一步缩小。此外,隐私保护和伦理问题也是数据生成过程中不可忽视的挑战,如何在保护患者隐私的同时生成高质量的临床数据,仍需更多探索。
常用场景
经典使用场景
PsyInterview数据集在情感障碍筛查领域具有广泛的应用,特别是在基于大语言模型(LLMs)的自动化筛查系统中。该数据集通过模拟临床访谈生成的多轮对话,能够有效训练模型识别焦虑症和抑郁症等情感障碍。其经典使用场景包括训练EmoScan系统,该系统能够区分粗粒度(如焦虑症或抑郁症)和细粒度(如重度抑郁症或广泛性焦虑症)的情感障碍,并提供高质量的筛查结果和解释。
解决学术问题
PsyInterview数据集解决了情感障碍筛查中的多个学术问题。首先,它通过自动化生成临床访谈数据,缓解了真实临床数据稀缺和隐私保护的难题。其次,该数据集支持训练模型进行细粒度情感障碍分类,提升了筛查的精确性和解释性。此外,EmoScan系统在筛查性能上显著优于基线模型(如GPT-4),展示了其在情感障碍筛查中的高效性和鲁棒性。
衍生相关工作
PsyInterview数据集衍生了一系列经典工作,特别是在情感障碍筛查和访谈自动化领域。基于该数据集开发的EmoScan系统不仅在筛查性能上表现出色,还在访谈技能评估中超越了多个基线模型。此外,该数据集的研究方法为其他心理健康相关数据集(如D4和DAIC-WOZ)的生成和应用提供了参考,推动了基于LLMs的心理健康筛查工具的进一步发展。
以上内容由遇见数据集搜集并总结生成



