Medical-Dialogue-Corpus
收藏github2022-11-02 更新2024-05-31 收录
下载链接:
https://github.com/Lireanstar/Medical-Dialogue-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
这里提供的是从在线开放源收集的医疗对话语料库,这些语料库将用于持续预训练和微调实体预测模型以及医疗对话生成模型。
This dataset comprises a medical dialogue corpus collected from open online sources, which will be utilized for the continuous pre-training and fine-tuning of entity prediction models as well as medical dialogue generation models.
创建时间:
2021-09-22
原始信息汇总
数据集概述
数据集名称
Medical-Dialogue-Corpus
数据来源
该数据集收集自在线开放源,具体包括以下GitHub项目:
- UCSD-AI4H/Medical-Dialogue-System
- Toyhom/Chinese-medical-dialogue-data
- flyyuan/Chinese-Medical-QA-Data
- liuhuanyong/MiningZhiDaoQACorpus
- zhangsheng93/cMedQA2
- lddsdu/VRBot
数据用途
用于持续预训练和微调实体预测模型及医疗对话生成模型。
引用信息
若需引用此数据集,请参考以下文献:
- 作者:Bin Li, Bin Sun, Shutao Li, Encheng Chen, Hongru Liu, Yixuan Weng, Yongping Bai, Meiling Hu
- 标题:Distinct but Correct: Generating Diversified and Entity-revised Medical Response
- 期刊:SCIENCE CHINA Information Sciences
- 年份:2022
- DOI:10.1007/s11432-021-3534-9
搜集汇总
数据集介绍

构建方式
Medical-Dialogue-Corpus数据集的构建基于多个开源在线资源,包括UCSD-AI4H的Medical-Dialogue-System、Toyhom的中文医疗对话数据、flyyuan的中文医疗问答数据等。这些资源经过整合与筛选,形成了一个综合性的医疗对话语料库。数据集的构建过程注重数据的多样性与代表性,涵盖了广泛的医疗领域对话场景,确保了数据的高质量与实用性。
特点
该数据集的特点在于其广泛覆盖了医疗领域的多种对话场景,包括但不限于疾病诊断、治疗方案讨论、药物咨询等。数据集中的对话内容丰富多样,既包含专业医学术语,也涉及日常用语,能够有效支持医疗对话生成模型和实体预测模型的训练与优化。此外,数据集的多样性与高质量使其成为医疗自然语言处理研究的重要资源。
使用方法
Medical-Dialogue-Corpus数据集可用于医疗对话生成模型和实体预测模型的预训练与微调。研究人员可以通过加载数据集中的对话数据,进行模型的训练与评估。数据集的使用方法灵活多样,支持多种自然语言处理任务,如对话生成、问答系统构建等。通过引用相关论文,研究人员可以进一步了解数据集的具体应用场景与技术细节。
背景与挑战
背景概述
Medical-Dialogue-Corpus数据集由多个在线开源资源整合而成,旨在为医学对话生成和实体预测模型提供训练数据。该数据集由Bin Li等研究人员于2022年发布,相关研究成果发表在《SCIENCE CHINA Information Sciences》期刊上。其核心研究问题在于如何生成多样化且准确的医学对话响应,以提升医疗问答系统的智能化水平。该数据集的发布为医学自然语言处理领域提供了重要的数据支持,推动了医疗对话系统的研究与应用,尤其在中文医学对话生成领域具有显著影响力。
当前挑战
Medical-Dialogue-Corpus数据集在构建与应用过程中面临多重挑战。首先,医学领域的专业性和复杂性要求对话生成模型具备高准确性和专业性,这对数据质量和模型训练提出了极高要求。其次,数据来源的多样性和异构性增加了数据清洗和整合的难度,确保数据的一致性和可靠性成为关键问题。此外,如何在生成多样化响应的同时保持医学信息的准确性,也是该领域亟待解决的核心挑战。这些问题的解决将直接影响医疗对话系统的实用性和用户体验。
常用场景
经典使用场景
在医疗对话系统领域,Medical-Dialogue-Corpus数据集被广泛应用于预训练和微调实体预测模型及医疗对话生成模型。通过该数据集,研究人员能够模拟真实的医患对话场景,提升模型在理解和生成医疗对话方面的能力。
解决学术问题
该数据集有效解决了医疗对话系统中实体识别和对话生成的难题。通过提供丰富的医患对话数据,研究人员能够训练出更精准的实体预测模型,并生成多样化且符合医学规范的对话内容,从而提升医疗对话系统的实用性和可靠性。
衍生相关工作
基于Medical-Dialogue-Corpus数据集,衍生出多项经典研究工作,如基于实体修订的多样化医疗对话生成模型。这些研究不仅推动了医疗对话系统的发展,还为其他领域的对话生成技术提供了宝贵的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



