医患对话记录数据集
收藏arXiv2025-04-23 更新2025-04-25 收录
下载链接:
http://arxiv.org/abs/2504.16448v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由三个医疗中心超过十个部门的真实医患对话记录构成,经过严格的去识别处理以保证患者隐私。数据预处理包括文本清洗、分词、关键信息标注,旨在为模型训练提供标准化输入。数据集通过半自动化标注方法生成结构化医疗记录,可用于自动生成电子病历的任务。
This dataset comprises real doctor-patient dialogue records from over ten departments across three medical centers, and has been strictly de-identified to protect patient privacy. Data preprocessing includes text cleaning, tokenization, and key information annotation, aiming to provide standardized inputs for model training. The dataset generates structured medical records via semi-automated annotation approaches, and can be utilized for tasks involving automatic generation of electronic medical records (EMRs).
提供机构:
安徽医科大学第一附属医院*, 国创云计算技术有限责任公司创新研究院*, 泰和县人民医院, 南加州大学, 讯飞医疗科技有限公司
创建时间:
2025-04-23
搜集汇总
数据集介绍

构建方式
医患对话记录数据集的构建采用了多阶段严谨的科学流程。研究团队从安徽医科大学第一附属医院等三家医疗中心采集了超过10个科室的真实医患对话音频,通过专业录音设备获取46,910条原始记录。采用科大讯飞语音转文字技术结合定制医疗词典进行文本转换后,经过文本清洗、语法语义规范化、异常数据修正等预处理步骤,最终保留8,665条标准化对话记录。关键创新在于采用半自动标注方法,由NLP工具初步提取后经专业标注人员审核修正,形成包含患者人口统计资料、主诉、现病史等结构化医疗字段的优质数据集。
特点
该数据集具有显著的领域专业性和结构完整性特征。内容覆盖老年病科、消化内科等多个临床科室,采集时间跨度三年,确保季节性和时段代表性。数据集创新性地采用代码风格提示模板设计,将自然语言对话转化为结构化代码框架,有效提升信息提取的准确性。特别值得注意的是,数据集包含精细的字段划分,从高度结构化的人口统计学信息到非结构化的治疗建议,为模型训练提供多维度特征。严格的去标识化处理保障患者隐私,符合医疗伦理规范,使数据集兼具学术价值与临床实用性。
使用方法
数据集支持多种先进的自然语言处理技术应用。研究者可采用基于LoRA的低秩自适应微调方法,仅训练大型语言模型的低秩矩阵参数,在保留原模型知识的同时适应医疗领域特性。典型流程包括:将对话文本通过提示编码器嵌入预定义的代码模板,使用微调后的模型进行信息提取,最后通过提示解码器转换为结构化医疗记录。数据集已成功部署于微信平台电子病历生成助手和医院信息系统集成工具,用户输入原始对话文本即可自动生成标准化病历。实验表明,该使用方法使Qwen2.5-7B模型在加权平均F1分数上达到88.1%的优异表现。
背景与挑战
背景概述
医患对话记录数据集由安徽医科大学第一附属医院、太和县人民医院等机构的研究团队于2024年构建,旨在解决医疗咨询对话的非结构化信息向结构化电子病历(EMR)的转换问题。该数据集包含来自10余个科室的8,665条真实医患对话记录,覆盖多种疾病类型和诊疗场景,采用专业语音转写技术和半自动标注方法构建。作为医疗自然语言处理领域的重要资源,该数据集通过结合代码风格提示和LoRA微调技术,显著提升了大型语言模型在医疗信息结构化提取任务中的性能,为智能诊断辅助系统提供了关键数据支撑。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决医疗对话中非标准化术语、隐含语义关系及上下文依赖性等复杂语言特征带来的信息提取困难;在构建过程中,需克服语音转写误差、敏感信息脱敏与标注一致性等关键技术难题。具体表现为:1)诊疗建议等自由文本字段存在高度个性化表达,导致模型提取准确率波动较大(F1评分0.80-0.85);2)原始音频中存在方言干扰和医学专有名词误识别,需结合医学知识进行人工校正;3)不同医疗机构病历模板差异导致结构化字段对齐困难,需设计自适应标注框架。
常用场景
经典使用场景
医患对话记录数据集在医学自然语言处理领域具有广泛的应用价值,尤其在电子病历结构化生成任务中表现突出。该数据集通过整合真实的医患对话记录,并辅以精细的标注,为研究人员提供了丰富的语料资源。其经典使用场景包括利用大型语言模型(如EMRModel)将非结构化的医患对话自动转换为结构化的电子病历,涵盖患者基本信息、主诉、现病史、既往史及治疗建议等关键字段。这一过程显著提升了医疗信息的利用效率,为后续的临床决策支持系统奠定了数据基础。
实际应用
医患对话记录数据集在实际医疗场景中展现出广泛的应用潜力。其衍生的EMRModel已被成功部署为微信平台电子病历生成助手和医院信息系统集成工具,显著提升了临床工作效率。医生通过自然语言输入患者咨询内容,系统即可自动生成结构化的电子病历,减少了人工录入的误差和时间成本。例如,在甲状腺乳腺外科和呼吸内科等多科室的实测中,该系统能够准确提取关键临床信息,并生成符合规范的病历文档。这种应用不仅优化了医疗数据的管理流程,还为远程医疗和智能诊断辅助系统提供了技术支持。
衍生相关工作
医患对话记录数据集催生了一系列相关研究和技术创新。基于该数据集,研究者提出了多种结合代码风格提示与LoRA微调的变体模型,如CodeIE和CodeKGC,进一步拓展了信息抽取在知识图谱构建等任务中的应用。此外,该数据集还启发了对医学领域专用大型语言模型的优化研究,例如WiNGPT2-7B-Chat等开源医学模型的性能对比分析。这些衍生工作不仅丰富了医学自然语言处理的技术栈,还为跨模态医疗数据分析(如结合语音识别与文本处理)提供了新的方法论参考。
以上内容由遇见数据集搜集并总结生成



