DIALMED
收藏arXiv2022-09-15 更新2024-07-30 收录
下载链接:
https://github.com/f-window/DialMed
下载链接
链接失效反馈官方服务:
资源简介:
DIALMED是一个高质量的数据集,用于基于医疗对话的药物推荐任务。它包含了与16种常见疾病相关的11,996个医疗对话,这些疾病来自3个部门,以及70种相应的常见药物。
DIALMED is a high-quality dataset dedicated to medical dialogue-based medication recommendation tasks. It contains 11,996 medical dialogues associated with 16 common diseases across 3 medical departments, as well as 70 corresponding common medications.
创建时间:
2022-02-22
原始信息汇总
DialMed 数据集概述
数据集简介
DialMed 是一个用于对话式药物推荐的对话数据集,相关研究发表于 COLING 2022 会议。
数据集结构
数据集包含以下文件和目录:
LICENSE:许可证文件。README.md:数据集说明文件。src:源代码目录,包含数据处理、模型定义、训练和工具脚本。data.pymodel.pytrain.pyutils.py
data:数据目录,包含数据集文件和知识图谱相关文件。dataset:数据集文件目录。label.jsontrain.txttest.txtdev.txt
log:日志目录。kg:知识图谱文件目录。kg_info.pkltransr_embedding_500.pkl
appendix:附加文件目录。ddi.jsonmedication_normalization.jsonstatistic_medication_ratio.py
使用方法
- 下载知识图谱信息和预训练的知识图谱嵌入(使用 TransR 预训练)。
- 使用以下命令进行训练、评估和测试: python python train.py --data_path DialMed/data/ --cuda 0
依赖环境
- pytorch
- numpy
- sklearn
- transformers
- tqdm
搜集汇总
数据集介绍

构建方式
DIALMED数据集的构建方式是首先从中国春雨医生网站上收集了11,996个医疗对话,这些对话涉及3个科室的16种常见疾病和70种常见药物。然后,由三位具有相关医学背景的标注员对这些对话进行标注,包括诊断疾病和推荐的药物。为了提高数据集的质量,还进行了药物的标准化处理,将同一种药物的不同品牌或俗称统一为一个通用名称。最后,为了使数据集更加真实,将医生推荐药物后的后续话语进行了删除。
特点
DIALMED数据集的特点包括:1) 包含大量的手动标注数据,是目前同类数据集中最大的;2) 虽然删除了推荐药物后的后续话语,但对话轮数仍然相对较高;3) 选择了适合药物推荐的领域,避免了粗略扩展医疗领域范围,使得数据集质量更高。
使用方法
DIALMED数据集的使用方法包括:1) 对话编码器:使用预训练的语言模型提取每个话语的语义信息,并利用QA对话图机制来理解话语中的问答关系,然后应用图注意力网络来获取对话嵌入;2) 疾病编码器:根据对话中的疾病信息,在知识图谱中查询实体,并将对话嵌入输入到图注意力网络中,以获取上下文疾病嵌入;3) 融合函数:将对话嵌入和疾病嵌入进行融合,并进行药物预测。
背景与挑战
背景概述
DIALMED数据集是由浙江大学计算机科学与技术学院、公共卫生学院、宁波理工学院和悉尼科技大学的研究人员合作构建的。该数据集旨在解决智能医疗系统中药物推荐的关键任务,特别是通过医生与患者之间的对话来进行药物推荐。传统的药物推荐研究主要依赖于电子健康记录(EHRs),但EHRs可能忽略了医生与患者互动的细节,而这些细节对于自动药物推荐至关重要。因此,DIALMED数据集的构建是一次创新尝试,它包含了11,996个与16种常见疾病相关的医疗对话,这些对话来自3个科室,并对应70种常见的药物。此外,研究人员还提出了一种名为Dialogue structure and Disease knowledge aware Network (DDN)的模型,其中设计了QA Dialogue Graph机制来模拟对话结构,并使用知识图谱引入外部疾病知识。实验结果表明,该方法在基于医疗对话的药物推荐任务中是一种有前景的解决方案。
当前挑战
DIALMED数据集和相关研究面临的主要挑战包括:1)领域问题挑战:医疗对话数据通常包含噪声和稀疏信息,且由于隐私问题,难以获取患者在线咨询平台的历史对话,这使得基于当前医疗对话的药物推荐更具挑战性。2)构建过程挑战:构建高质量的医疗对话数据集需要解决对话数据的收集、标注、归一化等问题,以确保数据集的准确性和实用性。此外,如何有效地将对话结构和外部疾病知识融入到药物推荐模型中,也是一项重要的研究挑战。
常用场景
经典使用场景
在智能医疗系统中,药物推荐是一项至关重要的任务。DIALMED数据集专注于基于医生与患者之间的对话来推荐药物,这是一个新的研究方向。它包含11,996个与16种常见疾病相关的医疗对话,来自3个科室和70种相应的常见药物。该数据集为研究医疗对话中的药物推荐提供了一个丰富的资源。
实际应用
DIALMED数据集在实际应用中具有广泛的前景。它可以用于开发智能医疗助手,帮助医生根据患者的症状和病史推荐合适的药物。此外,该数据集还可以用于训练医疗对话系统,使其能够更好地理解和处理医疗对话,为患者提供更好的服务。
衍生相关工作
基于DIALMED数据集,研究人员提出了DDN模型,该模型通过QA Dialogue Graph机制来理解对话结构,并使用知识图谱来引入外部疾病知识。DDN模型在药物推荐任务上取得了很好的效果,为基于医疗对话的药物推荐研究提供了新的思路。此外,DIALMED数据集还可以用于其他医疗对话任务的研究,如对话生成、对话理解等。
以上内容由遇见数据集搜集并总结生成



