DIALMED

arXiv2022-09-15 更新2024-07-30 收录

下载链接：

https://github.com/f-window/DialMed

下载链接

链接失效反馈

官方服务：

资源简介：

DIALMED是一个高质量的数据集，用于基于医疗对话的药物推荐任务。它包含了与16种常见疾病相关的11,996个医疗对话，这些疾病来自3个部门，以及70种相应的常见药物。

DIALMED is a high-quality dataset dedicated to medical dialogue-based medication recommendation tasks. It contains 11,996 medical dialogues associated with 16 common diseases across 3 medical departments, as well as 70 corresponding common medications.

创建时间：

2022-02-22

原始信息汇总

DialMed 数据集概述

数据集简介

DialMed 是一个用于对话式药物推荐的对话数据集，相关研究发表于 COLING 2022 会议。

数据集结构

数据集包含以下文件和目录：

LICENSE：许可证文件。
README.md：数据集说明文件。
src：源代码目录，包含数据处理、模型定义、训练和工具脚本。
- data.py
- model.py
- train.py
- utils.py
data：数据目录，包含数据集文件和知识图谱相关文件。
- dataset：数据集文件目录。
  - label.json
  - train.txt
  - test.txt
  - dev.txt
- log：日志目录。
- kg：知识图谱文件目录。
  - kg_info.pkl
  - transr_embedding_500.pkl
appendix：附加文件目录。
- ddi.json
- medication_normalization.json
- statistic_medication_ratio.py

使用方法

下载知识图谱信息和预训练的知识图谱嵌入（使用 TransR 预训练）。
使用以下命令进行训练、评估和测试： python python train.py --data_path DialMed/data/ --cuda 0

依赖环境

pytorch
numpy
sklearn
transformers
tqdm

搜集汇总

数据集介绍

构建方式

DIALMED数据集的构建方式是首先从中国春雨医生网站上收集了11,996个医疗对话，这些对话涉及3个科室的16种常见疾病和70种常见药物。然后，由三位具有相关医学背景的标注员对这些对话进行标注，包括诊断疾病和推荐的药物。为了提高数据集的质量，还进行了药物的标准化处理，将同一种药物的不同品牌或俗称统一为一个通用名称。最后，为了使数据集更加真实，将医生推荐药物后的后续话语进行了删除。

特点

DIALMED数据集的特点包括：1) 包含大量的手动标注数据，是目前同类数据集中最大的；2) 虽然删除了推荐药物后的后续话语，但对话轮数仍然相对较高；3) 选择了适合药物推荐的领域，避免了粗略扩展医疗领域范围，使得数据集质量更高。

使用方法

DIALMED数据集的使用方法包括：1) 对话编码器：使用预训练的语言模型提取每个话语的语义信息，并利用QA对话图机制来理解话语中的问答关系，然后应用图注意力网络来获取对话嵌入；2) 疾病编码器：根据对话中的疾病信息，在知识图谱中查询实体，并将对话嵌入输入到图注意力网络中，以获取上下文疾病嵌入；3) 融合函数：将对话嵌入和疾病嵌入进行融合，并进行药物预测。

背景与挑战

背景概述

DIALMED数据集是由浙江大学计算机科学与技术学院、公共卫生学院、宁波理工学院和悉尼科技大学的研究人员合作构建的。该数据集旨在解决智能医疗系统中药物推荐的关键任务，特别是通过医生与患者之间的对话来进行药物推荐。传统的药物推荐研究主要依赖于电子健康记录（EHRs），但EHRs可能忽略了医生与患者互动的细节，而这些细节对于自动药物推荐至关重要。因此，DIALMED数据集的构建是一次创新尝试，它包含了11,996个与16种常见疾病相关的医疗对话，这些对话来自3个科室，并对应70种常见的药物。此外，研究人员还提出了一种名为Dialogue structure and Disease knowledge aware Network (DDN)的模型，其中设计了QA Dialogue Graph机制来模拟对话结构，并使用知识图谱引入外部疾病知识。实验结果表明，该方法在基于医疗对话的药物推荐任务中是一种有前景的解决方案。

当前挑战

DIALMED数据集和相关研究面临的主要挑战包括：1)领域问题挑战：医疗对话数据通常包含噪声和稀疏信息，且由于隐私问题，难以获取患者在线咨询平台的历史对话，这使得基于当前医疗对话的药物推荐更具挑战性。2)构建过程挑战：构建高质量的医疗对话数据集需要解决对话数据的收集、标注、归一化等问题，以确保数据集的准确性和实用性。此外，如何有效地将对话结构和外部疾病知识融入到药物推荐模型中，也是一项重要的研究挑战。

常用场景

经典使用场景

在智能医疗系统中，药物推荐是一项至关重要的任务。DIALMED数据集专注于基于医生与患者之间的对话来推荐药物，这是一个新的研究方向。它包含11,996个与16种常见疾病相关的医疗对话，来自3个科室和70种相应的常见药物。该数据集为研究医疗对话中的药物推荐提供了一个丰富的资源。

实际应用

DIALMED数据集在实际应用中具有广泛的前景。它可以用于开发智能医疗助手，帮助医生根据患者的症状和病史推荐合适的药物。此外，该数据集还可以用于训练医疗对话系统，使其能够更好地理解和处理医疗对话，为患者提供更好的服务。

衍生相关工作

基于DIALMED数据集，研究人员提出了DDN模型，该模型通过QA Dialogue Graph机制来理解对话结构，并使用知识图谱来引入外部疾病知识。DDN模型在药物推荐任务上取得了很好的效果，为基于医疗对话的药物推荐研究提供了新的思路。此外，DIALMED数据集还可以用于其他医疗对话任务的研究，如对话生成、对话理解等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集