MDD-5k
收藏github2024-08-19 更新2024-08-30 收录
下载链接:
https://github.com/lemonsis/MDD-5k
下载链接
链接失效反馈官方服务:
资源简介:
MDD-5k是一个新的用于诊断精神障碍的对话数据集,通过神经符号LLM代理合成。
MDD-5k is a novel conversational dataset for psychiatric disorder diagnosis, synthesized by neurosymbolic LLM agents.
创建时间:
2024-08-18
原始信息汇总
MDD-5k 数据集概述
数据集介绍
MDD-5k 是一个用于精神障碍诊断对话的新型数据集,通过神经符号 LLM 代理合成。
预处理步骤
运行 python patient_template_gen.py 脚本以获取 MDD-5k 数据集的统计信息并生成虚构的患者经历。
合成诊断对话
当前代码仅支持使用部署的模型进行生成。可以通过 OpenAI API 密钥访问最先进的 GPT 模型,或者使用 vLLM 部署本地模型。对于前者,在 llm_tools_api.py 文件的第 37 行输入 OpenAI 密钥;对于后者,在 llm_tools_api.py 文件的第 44 和 45 行输入密钥和服务器主机。对于 OpenAI LLMs,我们发现 gpt-4o 的性能最佳。
然后运行 python main.py 脚本开始合成数据。
示例
一个真实患者案例展示在 ./raw_data/pa20.json 文件中。通过该患者案例生成的五个虚构患者经历展示在 ./prompts/background_story/patient_1 目录中。合成的诊断对话在 ./DataSyn/patient1.json 文件中。完整的 MDD-5k 数据集将在伦理审查完成后发布。
搜集汇总
数据集介绍

构建方式
MDD-5k数据集的构建基于先进的神经符号语言模型(LLM)代理技术,通过模拟真实患者经历与诊断对话来生成。首先,运行`python patient_template_gen.py`脚本以获取数据集的统计信息并生成虚构的患者体验。随后,利用GPT模型或本地部署的vLLM模型进行诊断对话的合成。对于GPT模型,推荐使用`gpt-4o`以获得最佳性能。通过运行`python main.py`脚本,启动数据合成过程,最终生成完整的MDD-5k数据集。
特点
MDD-5k数据集的显著特点在于其高度逼真的虚构患者体验和诊断对话,这些内容通过先进的神经符号语言模型生成,确保了数据的真实性和多样性。此外,数据集包含了多种心理障碍的诊断案例,为研究者提供了丰富的资源。数据集的结构设计合理,便于研究人员进行深入分析和模型训练。
使用方法
使用MDD-5k数据集时,首先需运行预处理脚本`python patient_template_gen.py`以生成虚构的患者体验。随后,通过`python main.py`脚本启动数据合成过程,利用GPT模型或本地部署的vLLM模型生成诊断对话。数据集的示例文件位于`./raw_data/pa20.json`和`./prompts/background_story/patient_1`目录下,完整数据集将在伦理审查完成后发布。研究人员可根据需要访问OpenAI API或部署本地模型进行数据生成和分析。
背景与挑战
背景概述
MDD-5k数据集是由神经符号语言模型(Neuro-Symbolic LLM Agents)合成的,专门用于精神障碍诊断对话的新型数据集。该数据集的核心研究问题在于通过合成对话来模拟和评估精神障碍的诊断过程,从而为精神健康领域的研究和应用提供支持。MDD-5k的创建时间及主要研究人员或机构尚未明确,但其对精神健康领域的潜在影响力不容忽视,特别是在提升诊断准确性和效率方面。
当前挑战
MDD-5k数据集在构建过程中面临多项挑战。首先,合成诊断对话的准确性和真实性是关键问题,需确保生成的对话能够准确反映精神障碍的症状和诊断过程。其次,数据集的伦理审查和隐私保护也是重要挑战,确保患者信息的匿名性和安全性。此外,如何有效利用和评估合成数据在实际诊断中的应用,也是该数据集未来需要解决的问题。
常用场景
经典使用场景
MDD-5k数据集在精神疾病诊断领域中被广泛用于模拟和分析患者与医生之间的对话。通过合成诊断对话,研究人员可以深入探讨抑郁症(MDD)患者的语言特征和情感表达,从而为精神疾病的早期诊断和干预提供有力支持。
解决学术问题
MDD-5k数据集解决了精神疾病诊断中对话数据稀缺的问题,为学术界提供了丰富的对话样本。这不仅有助于开发更精确的诊断模型,还推动了情感计算和自然语言处理技术在精神健康领域的应用,具有重要的学术价值和临床意义。
衍生相关工作
基于MDD-5k数据集,研究者们开发了多种精神疾病诊断模型和情感分析工具。例如,有研究利用该数据集训练了基于GPT-4的对话生成模型,显著提高了诊断对话的逼真度和准确性。这些衍生工作不仅推动了精神健康领域的技术进步,也为相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



