DSM5AgentFlow

Name: DSM5AgentFlow
Creator: Vrije Universiteit Amsterdam, Amsterdam, Netherlands
Published: 2025-08-15 19:08:32
License: 暂无描述

arXiv2025-08-15 更新2025-08-19 收录

下载链接：

https://github.com/mithatco/mental_health_multiagent

下载链接

链接失效反馈

官方服务：

资源简介：

DSM5AgentFlow是一个基于大型语言模型（LLM）的多智能体工作流程，旨在自主生成和实施DSM-5 Level-1诊断问卷。该流程通过模拟治疗师与客户的对话，提供透明、分步的疾病预测，并产生可解释和可信的结果。DSM5AgentFlow可以作为心理健康诊断的补充工具，确保符合伦理和法律标准。该工作流程通过全面的实验评估了领先的LLM在三个关键维度上的表现：对话现实主义、诊断准确性和可解释性。

DSM5AgentFlow is a large language model (LLM)-based multi-agent workflow designed to autonomously generate and administer DSM-5 Level-1 diagnostic questionnaires. This workflow simulates therapist-client dialogues to deliver transparent, step-by-step disease prediction and generate interpretable and credible results. DSM5AgentFlow can serve as a supplementary tool for mental health diagnosis while ensuring compliance with ethical and legal standards. DSM5AgentFlow evaluated the performance of state-of-the-art LLMs across three critical dimensions via comprehensive experiments: conversational realism, diagnostic accuracy, and interpretability.

提供机构：

Vrije Universiteit Amsterdam, Amsterdam, Netherlands

创建时间：

2025-08-15

原始信息汇总

Mental Health Multi-Agent System 数据集概述

数据集简介

Mental Health Multi-Agent System 是一个模拟心理健康评估的AI多智能体系统，通过两个专门AI智能体之间的对话来模拟精神科评估过程。

核心组件

智能体系统

心理健康助理：使用临床知识提问、解释回答，并基于问卷提供诊断
客户：基于模拟的精神疾病状况配置文件回答问题

文档处理与RAG系统

PDF处理器：从问卷PDF中提取问题
文档处理器：处理多种文档类型（PDF、TXT、DOCX、JSON）
RAG引擎：从医学文献提供相关上下文
向量存储：存储文档嵌入以进行语义搜索

基础设施

LLM客户端系统：提供统一的多LLM提供商接口
- Ollama客户端：与本地部署的LLM接口
- Groq客户端：与基于云的Groq API接口
聊天记录器：记录对话和诊断
配置文件系统：管理不同的客户配置文件

分析工具

批处理器：为研究和分析生成多个对话
批分析器：分析多个对话中的模式和统计信息
对话评估器：评估对话的质量和临床有效性
PDF调试器：帮助诊断问卷提取问题

技术特性

支持的LLM提供商

Ollama（默认）：在本地机器上运行模型，无需API密钥
Groq：基于云的API，推理速度极快，需要API密钥
OpenAI：通过OpenAI API访问GPT模型，需要API密钥

工作流程

问卷加载：从PDF文件加载问卷，通过文本分析提取问题
客户配置文件选择：定义客户精神疾病状况的配置文件
文档处理：处理所有文档并分割成块，创建每个块的嵌入
对话循环：助理询问问卷问题，客户根据其配置文件回答
RAG增强：RAG引擎从文档中检索相关信息
诊断生成：考虑所有客户回答后生成诊断
对话记录：将整个对话保存为JSON和纯文本
对话评估：评估对话质量，提供临床准确性、同理心等指标

数据内容

配置文件

系统包含预定义的精神疾病配置文件：

焦虑症（anxiety.txt）
双相情感障碍（bipolar.txt）
抑郁症（depression.txt）
创伤后应激障碍（ptsd.txt）
精神分裂症（schizophrenia.txt）

文档类型

问卷：放置在documents/questionnaires/目录中的评估问卷
参考资料：放置在documents/目录中的临床参考资料

评估系统

标准指标

回答/响应相关性
忠实度
上下文精确度
上下文召回率

基于量规的评估

同理心与融洽关系
临床准确性
治疗方法
安全与风险评估
沟通清晰度

使用方式

基本使用

bash python main.py

批量处理

bash python main.py --batch 5 --patient_profile depression

聊天查看器

bash python chat_viewer.py

目录结构

mental_health_multiagent/ ├── main.py ├── agents/ ├── utils/ ├── prompts/ ├── profiles/ ├── rubrics/ ├── documents/ ├── interface/ ├── chat_logs/ ├── cache/ ├── analyze_batch.py ├── debug_pdf.py ├── create_profile.py └── chat_viewer.py

定制选项

添加新的客户配置文件
修改系统提示
自定义评估量规
选择嵌入模型
自定义模型集成

搜集汇总

数据集介绍

构建方式

DSM5AgentFlow数据集通过多智能体大语言模型（LLM）工作流构建，模拟真实心理治疗师与患者的对话场景。该框架包含三个核心智能体：治疗师智能体负责基于DSM-5标准生成问卷问题；患者智能体根据预定义的流行病学特征配置文件模拟患者应答；诊断智能体则通过检索增强生成（RAG）技术关联对话内容与DSM-5诊断标准，最终输出包含逐步推理过程的诊断结果。数据生成采用并行批处理系统，在保护隐私的前提下创建了8000组涵盖10类精神障碍的合成对话。

特点

该数据集的核心特点在于其临床解释性与结构化的诊断逻辑。每段对话严格遵循DSM-5一级交叉症状测量的23个条目，通过智能体交互生成自然语言问答序列。诊断结果不仅包含疾病分类预测，还提供基于具体对话证据的逐步临床推理链，并标注症状标签（<sym>）和诊断标准引用（如“准则A”）。数据集覆盖焦虑症、创伤后应激障碍等10类主要精神障碍，且通过BERTScore和Flesch阅读易读性指数等指标确保对话质量。

使用方法

研究者可通过配置客户端配置文件（TXT格式）和问卷模板（PDF/Markdown）生成定制化诊断对话。工作流支持本地Ollama平台或云端API部署，包含对话历史记录、诊断结论及证据链的完整输出。典型应用包括：1）评估不同LLM在临床对话生成中的表现；2）训练可解释性精神健康诊断模型；3）生成符合伦理要求的合成数据以缓解真实患者数据稀缺问题。使用需注意该框架仅限研究用途，禁止直接用于临床决策。

背景与挑战

背景概述

DSM5AgentFlow数据集由Mithat Can Ozgun、Jiahuan Pei等研究人员于2025年提出，旨在解决大型语言模型（LLM）在心理健康诊断领域的局限性。该数据集通过模拟治疗师与患者的多轮对话，生成符合DSM-5一级诊断问卷的标准化评估，为心理健康诊断提供了透明且可解释的AI辅助工具。其核心研究问题聚焦于提升LLM在临床诊断中的准确性、可解释性和伦理合规性，推动了AI在精神健康领域的可信应用。该工作由阿姆斯特丹自由大学、瓦赫宁根大学等机构合作完成，其开源特性为后续研究提供了重要基准。

当前挑战

DSM5AgentFlow面临的挑战主要体现在两方面：领域问题方面，心理健康诊断需处理高度敏感且稀疏的临床数据，而现有LLM在症状的多轮对话理解、临床推理对齐及诊断透明度上存在显著不足；构建过程方面，合成对话需平衡流行病学真实性与隐私保护，同时确保多智能体协作中角色一致性、症状表达准确性，以及诊断结果与DSM-5标准的严格映射。此外，评估时需克服自动指标与临床标准间的语义鸿沟，并解决调整障碍等易混淆病症的分类难题。

常用场景

经典使用场景

在心理健康研究领域，DSM5AgentFlow数据集通过模拟治疗师与患者的多轮对话，为研究者提供了一个标准化的DSM-5一级诊断问卷生成平台。该数据集最经典的使用场景在于训练和评估大型语言模型在精神障碍诊断中的表现，特别是在模拟真实临床对话的连贯性、诊断准确性以及解释性方面。通过配置不同的患者档案，研究者能够生成多样化的对话数据，覆盖从焦虑症到精神分裂症等10类主要精神障碍，为模型在复杂临床情境下的表现提供全面评估。

衍生相关工作

该数据集催生了多个重要研究方向：基于Qwen-QWQ模型的因果推理框架CausalMed将其诊断逻辑扩展至个性化用药推荐；NLA-MMR研究则融合了该工作的多模态对齐方法，实现了药物描述与电子健康记录的嵌入匹配。在对话生成领域，DiaSynth借鉴其链式推理机制开发了动态对话系统，而CounseLLMe数据集则采用类似架构构建了人类与AI心理咨询对话的对比基准。这些衍生工作共同推动了可解释AI在临床决策支持系统中的发展。

数据集最近研究