X7-qP2-mN9-v4/MTS_Dialogue-Clinical_Note
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/X7-qP2-mN9-v4/MTS_Dialogue-Clinical_Note
下载链接
链接失效反馈官方服务:
资源简介:
MTS对话数据集是一个包含1.7k条简短医患对话及相应摘要(章节标题和内容)的新集合。训练集包含1,201对对话和相关摘要,验证集包含100对对话及其摘要。dialogue列包含医患对话,section_text列包含医患对话的临床笔记,格式为:*症状:*诊断:*患者病史:*行动计划:***如果某个部分没有信息,则标记为N/A。该数据集是[MTS-Dialog数据集](https://github.com/abachaa/MTS-Dialog)的修改版,旨在满足[har1/HealthScribe-Clinical_Note_Generator](https://huggingface.co/har1/HealthScribe-Clinical_Note_Generator)模型的需求,该模型是[facebook/bart-large-cnn](https://huggingface.co/facebook/bart-large-cnn)的微调版本。主要贡献者包括Aleena Patani、Amigashabnam F、Harikrishnan K C、Sreeja S和Sujith Jayaprakash。
The MTS-Dialog dataset is a new collection of 1.7k short doctor-patient conversations and corresponding summaries (section headers and contents). The training set consists of 1,201 pairs of conversations and associated summaries. The validation set consists of 100 pairs of conversations and their summaries. The dialogue column contain Doctor-Patient conversation. The section_text column contains the Clinical Note of the Doctor-Patient conversation. This clinical note is of the format : * Symptoms: * Diagnosis: * History of Patient: * Plan of Action: *** N/A is given if no information is found for each of the sections. This dataset is a modified version of the [MTS-Dialog dataset](https://github.com/abachaa/MTS-Dialog). The dataset was modified to satisfy the needs of the [har1/HealthScribe-Clinical_Note_Generator](https://huggingface.co/har1/HealthScribe-Clinical_Note_Generator) model. This is a fine-tuned version of [facebook/bart-large-cnn](https://huggingface.co/facebook/bart-large-cnn). The main contributors of this dataset i.e. the modified version are : Aleena Patani, Amigashabnam F, Harikrishnan K C, Sreeja S, and Sujith Jayaprakash.
提供机构:
X7-qP2-mN9-v4
搜集汇总
数据集介绍

构建方式
MTS_Dialogue-Clinical_Note数据集是在原始MTS-Dialog数据集基础上经精心改造而来,原始资源包含约1700段简短医患对话及其对应的临床摘要。改造后的版本聚焦于文本生成与摘要任务,从原始对话中提取结构化的临床笔记,涵盖“症状”、“诊断”、“病史”及“行动计划”四个关键章节,若某章节无相关信息则标注为“N/A”。该数据集由训练集(1201对对话与摘要)、验证集(100对)构成,为下游模型微调提供了高质量的对齐数据,尤其服务于基于bart-large-cnn架构的医疗笔记生成模型。
特点
该数据集的核心特点在于其医学文本的领域特异性与结构规范性。对话列与章节文本列之间形成了紧密的语义映射关系,使得模型能够从非结构化的口语交流中抽取出高度结构化的临床文档。其四段式标准化输出不仅便于医疗人员快速查阅,也提升了自动生成笔记的可解释性与实用性。此外,N/A标记的引入有效处理了信息缺失的边界情况,增强了数据集的鲁棒性。数据集规模虽小,但专为医疗对话摘要这一垂直场景精调,兼具专业性与聚焦优势。
使用方法
该数据集适用于文本生成、特征提取与摘要三类常见自然语言处理任务。使用时可加载对话列作为输入文本,以section_text列作为目标输出,展开序列到序列模型的微调。由于原始数据已配合bart-large-cnn的典型分词与张量格式进行适配,研究者可直接采用HuggingFace Transformers库中的BART模型进行训练与推理。建议在微调时保留质量较高的训练集与验证集划分,并注意处理N/A章节的损失掩码,以避免模型在无信息区域产生无意义预测。医疗语境下的特殊词汇与缩写需额外关注预处理与后处理环节。
背景与挑战
背景概述
在医疗人工智能领域,从医患对话中自动生成结构化临床摘要具有重要的应用价值,能够显著减轻临床医生的文书负担。MTS_Dialogue-Clinical_Note数据集由Aleena Patani、Harikrishnan K C等多位研究者于近期创建,是对原始MTS-Dialog数据集进行针对性修改后形成的版本。该数据集包含约1700对简短的医患对话及其对应的结构化临床摘要,涵盖症状、诊断、病史、行动计划四个核心板块。该数据集专为微调BART-large-CNN模型而设计,服务于临床笔记生成任务,推动了自然语言处理技术向医疗卫生领域的深度渗透,对智能医疗文档辅助系统的研发产生了积极影响。
当前挑战
该数据集所面临的挑战主要体现在两个方面:其一,医患对话文本通常呈现高度口语化、非结构化特征,对话中常包含与临床记录无关的冗余信息,导致从有限长度的对话中准确提取关键医疗信息极具挑战性。其二,在数据集构建过程中,原始对话与结构化摘要的标注需要依赖专业医学知识,且每个摘要板块可能因信息缺失而填写'N/A',如何处理这种稀疏性与不平衡性,确保生成模型在信息不完整情况下也能产出连贯且可靠的临床笔记,是当前技术攻坚的核心难点。
常用场景
经典使用场景
MTS_Dialogue-Clinical_Note数据集的核心应用在于从医患对话中自动生成结构化临床笔记,涵盖症状、诊断、病史及行动计划等关键医疗信息。该数据集包含约1700对简短医患对话及其对应的临床摘要,常用于训练和评估文本到文本生成模型,尤其是在医学摘要生成任务中发挥重要作用。其经典使用场景包括将非结构化的自然语言对话转化为标准化的临床记录,从而辅助医疗文档的自动化撰写,提升医疗记录的规范性和效率。
解决学术问题
该数据集有效解决了医学自然语言处理中一个关键学术难题:如何从医患对话中自动提取并组织临床信息。传统的临床笔记撰写依赖人工,耗时且易出错,而该数据集为监督式摘要生成模型提供了训练基础。它支持研究者在少样本场景下探索对话理解、信息抽取与结构生成等核心问题,推动了医学文本摘要技术的进步。其发布显著促进了临床文档自动化的研究,提升了医疗信息处理的准确性与效率。
衍生相关工作
基于该数据集,研究者衍生出了多项经典工作,其中最突出的是HealthScribe-Clinical_Note_Generator模型,该模型通过在BART-large-CNN基础上微调,实现了高精度的临床笔记生成。此外,原始MTS-Dialog数据集及其变体被广泛用于探索医疗对话摘要、信息结构抽取与多任务学习等方向。这些衍生的研究为医疗AI领域提供了可复用的基准与方法,推动了自动化临床文档生成技术的发展与落地。
以上内容由遇见数据集搜集并总结生成



