dataset_SOAP_summary

Name: dataset_SOAP_summary
Creator: 密西西比州立大学
Published: 2024-12-05 23:34:02
License: 暂无描述

arXiv2024-12-05 更新2024-12-10 收录

下载链接：

http://arxiv.org/abs/2412.04254v1

下载链接

链接失效反馈

官方服务：

资源简介：

dataset_SOAP_summary数据集由密西西比州立大学和Potentia Analytics Inc.合作创建，包含1473对患者与医生对话及其对应的临床总结。数据集结合了FigShare和MTS-Dialog两个公开数据源，并由领域专家手动校正，确保数据质量。创建过程包括对话文本的提取、SOAP格式信息的提取和总结生成。该数据集主要用于训练和评估临床总结生成模型，旨在提高医疗记录的自动化生成效率和准确性。

The dataset_SOAP_summary was collaboratively developed by Mississippi State University and Potentia Analytics Inc. It contains 1473 pairs of patient-doctor conversations and their corresponding clinical summaries. This dataset incorporates two publicly available data sources, FigShare and MTS-Dialog, and was manually revised by domain experts to ensure data quality. The dataset construction process includes extraction of conversational transcripts, extraction of SOAP-format information, and summary generation. This dataset is primarily used for training and evaluating clinical summary generation models, aiming to improve the efficiency and accuracy of automated medical record generation.

提供机构：

密西西比州立大学

创建时间：

2024-12-05

搜集汇总

数据集介绍

构建方式

dataset_SOAP_summary数据集通过整合两个公开数据集FigShare和MTS-Dialog构建而成，共包含1,473对患者-医生对话及其对应的临床总结。为了确保数据质量，研究团队使用GPT4-O-Mini模型生成了初步的临床总结，随后由医学专家（SMEs）进行人工校验和修正，确保其准确性和相关性。最终，这些经过验证的对话-总结对被用于微调预训练语言模型（PLMs），并公开发布以供进一步研究使用。

使用方法

dataset_SOAP_summary数据集主要用于微调预训练语言模型，以生成高质量的临床总结。研究者可以通过该数据集训练模型，使其能够从患者-医生对话中自动提取SOAP格式的临床信息。此外，该数据集还可用于评估不同模型在临床总结生成任务中的表现，通过自动评估指标（如ROUGE、BERTScore）和专家人工评估，验证模型的准确性和实用性。

背景与挑战

背景概述

dataset_SOAP_summary数据集由密西西比州立大学计算机科学与工程系的研究团队与Potentia Analytics公司合作创建，旨在通过自动生成临床总结（SOAP格式）来优化医生与患者之间的对话记录。该数据集的核心研究问题是如何利用预训练语言模型（PLMs）从患者与医生的对话中提取并生成结构化的临床总结，以提高医疗记录的准确性和效率。数据集的构建基于两个公开数据集（FigShare和MTS-Dialog），并通过专家验证生成了1,473对对话-总结配对，为模型微调提供了高质量的训练数据。该数据集的创建不仅推动了医疗领域的自动化进程，还为临床总结生成任务提供了新的基准。

当前挑战

dataset_SOAP_summary数据集在构建过程中面临多项挑战。首先，医疗领域的对话具有高度专业性和复杂性，如何从非结构化的对话中准确提取SOAP信息是一个关键难题。其次，预训练语言模型在处理医疗文本时容易出现幻觉（hallucination），导致生成的总结可能包含不准确或误导性的信息。此外，数据集的构建需要专家手动验证生成的总结，确保其符合医疗标准，这一过程耗时且成本高昂。最后，如何确保模型在不同医疗场景下的泛化能力，尤其是在处理罕见病例或复杂病情时，仍然是一个未解决的挑战。

常用场景

经典使用场景

dataset_SOAP_summary 数据集的经典使用场景主要集中在临床医学领域，用于从患者与医生的对话中自动生成结构化的临床总结（SOAP格式）。该数据集通过整合患者的主观体验、客观观察、诊断评估和治疗计划等信息，帮助医疗专业人员快速生成准确的临床记录。这种自动化的总结生成不仅提高了医疗记录的效率，还减少了手动编写总结的时间和错误率。

解决学术问题

dataset_SOAP_summary 数据集解决了临床医学领域中自动生成结构化临床总结的学术难题。传统的临床总结生成依赖于人工编写，耗时且容易出错。该数据集通过提供高质量的对话-总结对，使得预训练语言模型能够通过微调生成准确的SOAP格式总结。这不仅提高了生成模型的准确性和可靠性，还为医疗领域的自动化文档生成提供了新的研究方向。

实际应用

在实际应用中，dataset_SOAP_summary 数据集被广泛用于医疗信息系统中，帮助医生和护士快速生成患者就诊的临床总结。通过自动化的总结生成，医疗人员可以更专注于患者的治疗和护理，减少文书工作的负担。此外，该数据集还可用于培训医疗AI系统，提升其在复杂医疗对话中的理解和总结能力，从而提高医疗服务的质量和效率。

数据集最近研究