MDD-5k

Name: MDD-5k
Creator: 盛大集团，上海，中国
Published: 2024-08-22 13:59:47
License: 暂无描述

arXiv2024-08-22 更新2024-08-24 收录

下载链接：

https://github.com/lemonsis/MDD-5k

下载链接

链接失效反馈

官方服务：

资源简介：

MDD-5k是由盛大集团等机构合作开发的中文精神障碍诊断对话数据集，基于1000个经过清洗的真实患者案例，包含5000个高质量的诊断对话，每个对话平均26.8轮，共6906.8个中文字符。数据集通过神经符号多代理框架生成，确保了对话的多样性和专业性，主要用于辅助诊断聊天机器人和精神障碍分类等下游任务，旨在解决精神健康领域的诊断难题。

MDD-5k is a Chinese mental disorder diagnosis dialogue dataset co-developed by Shanda Group and other collaborating institutions. Based on 1,000 cleaned real patient cases, it encompasses 5,000 high-quality diagnostic dialogues, with an average of 26.8 turns per dialogue and a total of 6,906.8 Chinese characters. Generated via a neuro-symbolic multi-agent framework, the dataset ensures the diversity and professional quality of the dialogues. It is primarily used for downstream tasks such as auxiliary diagnostic chatbots and mental disorder classification, aiming to address diagnostic challenges in the mental health field.

提供机构：

盛大集团，上海，中国

创建时间：

2024-08-22

原始信息汇总

MDD-5k 数据集概述

数据集简介

MDD-5k 是一个用于精神障碍诊断对话的新型数据集，通过神经符号大语言模型（LLM）代理合成。

预处理步骤

运行 python patient_template_gen.py 以获取 MDD-5k 数据集的统计信息并生成虚构的患者经历。

合成诊断对话

当前代码仅支持使用部署的模型进行生成。可以通过 OpenAI API 密钥访问最先进的 GPT 模型，或者使用 vLLM 部署本地模型。
对于 OpenAI API 方式，在 llm_tools_api.py 的第 37 行输入 OpenAI 密钥。
对于本地模型部署方式，在 llm_tools_api.py 的第 44 和 45 行输入密钥和服务器主机。
对于 OpenAI LLMs，我们发现 gpt-4o 的性能最佳。
运行 python main.py 开始合成数据。

示例

一个真实患者案例展示在 ./raw_data/pa20.json。
使用该患者案例生成的五个虚构患者经历展示在 ./prompts/background_story/patient_1。
合成的诊断对话在 ./DataSyn/patient1.json。
完整的 MDD-5k 数据集将在伦理审查完成后发布。

搜集汇总

数据集介绍

构建方式

MDD-5k 数据集是通过神经符号多智能体框架合成的，该框架利用大型语言模型来模拟精神疾病诊断对话。该框架涉及医生代理和患者代理之间的交互，并通过工具代理的动态诊断树来实现文本生成。框架以患者病例为输入，能够根据单个患者病例生成多个多样化的对话。MDD-5k 数据集基于与一家先驱精神医院的合作，从 1000 个经过清洗的真实患者病例构建，包含 5000 个高质量的长对话，并附有诊断结果标签。

特点

MDD-5k 数据集的特点在于其规模庞大，包含 5000 个高质量的长对话，平均每段对话包含 26.8 个回合和 6906.8 个中文字符。它是第一个带有标签的中国精神疾病诊断对话数据集。数据集涵盖了超过 25 种不同的疾病，所有患者病例都经过清洗和筛选，以确保患者隐私信息的完全保护。此外，MDD-5k 数据集成功模拟了人类精神疾病诊断过程，并在专业性、沟通技巧、流畅性、安全性和相似度方面表现出色。

使用方法

MDD-5k 数据集可以用于各种下游任务，如精神疾病分类、精神疾病诊断辅助聊天机器人等。用户可以访问数据集的 GitHub 存储库，下载数据集和代码。用户可以使用数据集中的对话来训练和评估他们的模型，以帮助提高精神疾病诊断的准确性和效率。

背景与挑战

背景概述

MDD-5k 数据集的创建背景源于心理健康问题在现代社会中的日益突出。根据世界卫生组织（WHO）的统计，2019年全球每八人中就有一人患有精神疾病。随着大型语言模型（LLMs）的快速发展，其理解和生成人类文本的能力得到了显著提升。研究者们开始将目光转向构建基于精神疾病的诊断对话数据集，以促进人工智能在心理健康领域的应用。然而，由于隐私和伦理方面的严格限制，直接收集真实诊断场景中的对话几乎是不可能的。为了解决这个问题，MDD-5k 数据集的创建者们设计了一个神经符号多智能体框架，通过利用易于获取的匿名患者案例来合成诊断对话。该框架基于大型语言模型，可以生成与真实诊断过程相似的对话，并具有可控性和多样性。

当前挑战

MDD-5k 数据集面临的挑战包括：1) 合成对话与实际医疗诊断之间的差异；2) 对患者案例中多样信息的理解和解读；3) 数据集的扩展性，以满足更多类型的精神健康问题的需求；4) 数据集的多语言版本，以促进国际交流和研究。

常用场景

经典使用场景

MDD-5k数据集被广泛应用于训练和评估辅助诊断聊天机器人和心理疾病分类模型。该数据集包含高质量的对话，模拟了人类医生和患者之间的诊断过程，为研究人员提供了丰富的语言和情境信息，有助于模型学习如何有效地进行诊断对话。

衍生相关工作

MDD-5k数据集的发布促进了相关研究的深入发展。例如，研究人员可以利用MDD-5k数据集进行情感支持或心理疾病分类任务的研究，进一步探索人工智能在心理健康领域的应用。此外，MDD-5k数据集还可以作为其他心理疾病诊断数据集的参考，推动相关领域的知识共享和交流。

数据集最近研究