ticoAg/Chinese-medical-dialogue
收藏Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/Chinese-medical-dialogue
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含单轮医患对话,涵盖了多个医疗科室,如心血管科和内分泌科。每个对话样本包括科室名称、问题标题、患者的询问以及医生的回答。数据集是从Chinese-medical-dialogue-data项目处理而来的,原始CSV文件大小为356 MB,包含799,743个示例。
This dataset consists of single-turn doctor-patient dialogues spanning multiple medical departments including cardiology and endocrinology. Each dialogue sample contains the department name, question title, patient's inquiry, and the doctor's corresponding response. This dataset is processed from the Chinese-medical-dialogue-data project, whose original CSV file has a size of 356 MB and encompasses 799,743 samples.
提供机构:
ticoAg
原始信息汇总
数据集概述
基本信息
- 许可证:Apache-2.0
- 原始数据大小:356 MB
- 示例数量:799743
数据来源
- 数据来源于Chinese-medical-dialogue-data,包含单轮医患对话。
数据样本
原始数据样本
| 科室 | 标题 | 提问 | 回答 |
|---|---|---|---|
| 心血管科 | 高血压患者能吃党参吗? | 我有高血压这两天女婿来的时候给我拿了些党参泡水喝,您好高血压可以吃党参吗? | 高血压病人可以口服党参的。党参有降血脂,降血压的作用,可以彻底消除血液中的垃圾,从而对冠心病以及心血管疾病的患者都有一定的稳定预防工作作用,因此平时口服党参能远离三高的危害。另外党参除了益气养血,降低中枢神经作用,调整消化系统功能,健脾补肺的功能。感谢您的进行咨询,期望我的解释对你有所帮助。 |
| 内分泌科 | 糖尿病还会进行遗传吗? | 糖尿病有隔代遗传吗?我妈是糖尿病,很多年了,也没养好,我现在也是,我妹子也是,我儿子现在二十岁,没什么问题,但是以后会不会也得糖尿病啊,真是难过,我现在就已经开始让他控制点吃东西。 | 2型糖尿病的隔代遗传概率为父母患糖尿病,临产的发生率为40%,比一般人患糖尿病,疾病,如何更重要的选择因素基于生活方式的,后天也隔代遗传隔代遗传易感性更公正,增强患糖尿病的风险,低糖低脂肪,平时清淡饮食,适当锻练,增强监测数据,血糖仪买个备取。 |
| 内分泌科 | 糖尿病会出现什么症状? | 我是不是糖尿病,如何严重,糖尿病的典型症状有哪些?血糖高之后感觉什么东西都不能够吃了,有糖分的东西都不敢吃,怕血糖又高,不知晓是不是变严重了,糖尿病的症状有哪些? | 你好,根据你描述的情况看来糖尿病是可以致使血糖异常下降的,可以再次出现三多一少的症状,如喝水多,小便多,饭量大,体重减轻,建议你尽快复诊当地医院内分泌科看一看,需要有让大夫仔细检查你的血糖水平,明确有否糖尿病的情况,及时动用降糖药治疗,平时一定少吃甜食,足量锻练。 |
处理后的数据样本
json [ {"instruction":"title", "input":"ask", "output":"answer", "history":None}, ]
搜集汇总
数据集介绍

构建方式
在医学对话数据挖掘领域,ticoAg/Chinese-medical-dialogue数据集通过系统化处理原始医患交流记录构建而成。其原始数据来源于公开的医疗对话资源,涵盖心血管科、内分泌科等多个临床科室。构建过程中,专业对话被提取并结构化,形成包含科室、标题、患者询问及医生回答的标准字段。每条记录均经过清洗与格式转换,最终组织为适合自然语言处理任务的指令微调格式,确保了数据的规范性与可用性。
特点
该数据集的核心特征在于其专注于中文单轮医患对话,内容具有高度的专业性与实用性。数据覆盖多种常见慢性疾病,如高血压与糖尿病,对话内容涉及症状咨询、治疗建议及遗传风险等现实议题。其结构化设计将原始对话转化为清晰的指令-输入-输出三元组,便于模型理解与生成。数据规模庞大,样本量接近八十万条,为训练高质量的医疗对话模型提供了丰富的语言材料与知识基础。
使用方法
在医疗人工智能应用中,该数据集主要用于训练与评估对话生成模型。研究人员可将其加载至机器学习框架,通过指令微调方式使模型学习医患交互模式。典型使用流程包括:将‘title’与‘ask’字段作为模型输入,引导模型生成类似‘answer’的专业医疗回复。数据集格式兼容主流训练范式,支持构建能够理解患者询问并提供初步医学建议的辅助系统,为智慧医疗领域的自然语言处理研究提供关键数据支撑。
背景与挑战
背景概述
在人工智能与自然语言处理领域,医疗对话数据的构建对于推动智能医疗助手的发展具有关键意义。ticoAg/Chinese-medical-dialogue数据集由相关研究人员或机构基于开源项目Chinese-medical-dialogue-data整理而成,发布于近年,旨在提供大规模的中文单轮医患对话语料。该数据集的核心研究问题聚焦于如何利用真实医疗对话支持医学问答系统、疾病诊断辅助及患者教育等任务的模型训练,其丰富的内容涵盖了心血管科、内分泌科等多个科室,为医疗自然语言处理研究提供了宝贵的资源,显著促进了中文医疗对话生成与理解技术的进步。
当前挑战
该数据集旨在解决医疗对话生成与问答的领域问题,其挑战在于医疗文本的专业性和复杂性,要求模型准确理解医学术语、疾病症状及治疗建议,同时确保回答的医学准确性和安全性。在构建过程中,挑战包括从原始数据中清洗和标准化非结构化的医患对话,处理大量口语化表达和错别字,以及维护患者隐私与数据伦理,这些因素共同增加了数据集高质量标注与可靠应用的难度。
常用场景
经典使用场景
在医疗自然语言处理领域,ticoAg/Chinese-medical-dialogue数据集以其丰富的单轮医患对话内容,为构建智能医疗对话系统提供了核心训练资源。该数据集涵盖心血管科、内分泌科等多个科室的问答对,能够有效支持模型学习医学知识表达与患者咨询的响应模式,从而推动医疗对话生成技术的实证研究。
实际应用
在实际医疗辅助场景中,该数据集可直接用于开发临床智能问答助手,帮助患者获取初步医学建议。基于其结构化对话内容,系统能够模拟医生回答常见疾病咨询,缓解医疗资源紧张问题,同时为远程医疗和健康管理平台提供自动化服务支持,增强医疗服务的可及性与效率。
衍生相关工作
围绕该数据集,学术界衍生出多项经典研究,例如基于预训练模型的医疗对话生成、疾病诊断辅助系统的构建以及医学知识图谱的增强应用。这些工作不仅深化了医疗自然语言处理的理论框架,还推动了跨模态医疗数据分析的发展,为后续智能医疗工具的迭代创新提供了重要参考。
以上内容由遇见数据集搜集并总结生成



