clinical_visit_note_summarization_corpus

github2023-09-27 更新2024-05-31 收录

下载链接：

https://github.com/microsoft/clinical_visit_note_summarization_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含合成临床遭遇的文本数据，包括每次遭遇的对话转录和临床笔记。数据集旨在为自动临床笔记生成任务提供一个通用数据集，以减轻医生的文档负担，使他们能够更多地关注患者护理。

This dataset comprises textual data of synthetic clinical encounters, including transcriptions of dialogues and clinical notes from each encounter. The dataset is designed to provide a universal dataset for the task of automated clinical note generation, aiming to alleviate the documentation burden on physicians, thereby enabling them to focus more on patient care.

创建时间：

2023-07-01

原始信息汇总

数据集概述

数据集名称

CLINICAL VISIT NOTE SUMMARIZATION CORPUS

数据集组成

MTS-Dialog 数据集
- 包含1.7k短医生-患者对话及其对应的总结（章节标题和内容）。
- 数据分割：
  - 训练集：1201
  - 验证集：100
  - 测试集1：200（MEDIQA-CHAT TASK A）
  - 测试集2：200（MEDIQA-SUM TASK A和B）
ACI-Bench 数据集
- 包含完整的医生-患者对话及相关的临床笔记。
- 数据分割：
  - 训练集：67
  - 验证集：20
  - 测试集1：40（MEDIQA-CHAT TASK B测试集）
  - 测试集2：40（MEDIQA-CHAT TASK C测试集）
  - 测试集3：40（MEDIQA-SUM TASK C测试集）

数据集用途

用于测试自然语言生成和语言生成评估方法，特别是从医生-患者对话生成临床笔记的任务。

数据集特点

数据集为合成数据，由医学注释者和临床医生贡献。
参与了两个国际研究挑战：MEDIQA-CHAT 2023和MEDIQA-SUM 2023。

数据集限制

虽然是目前最大的开放数据集，但不代表所有可能的真实对话和临床笔记数据。

数据集许可证

发布于Creative Commons Attribution 4.0 International Licence (CC BY)。

联系信息

Asma Ben Abacha (abenabacha at microsoft dot com)
Wen-wai Yim (yimwenwai at microsoft dot com)

搜集汇总

数据集介绍

构建方式

该数据集由两部分组成：MTS-Dialog数据集和ACI-Bench数据集。MTS-Dialog数据集包含1.7k条简短的医患对话及其对应的临床笔记摘要，数据来源于mtsamples.com。ACI-Bench数据集则包含完整的医患对话及其对应的临床笔记，并附有患者年龄、姓名等元数据。这些数据由医学注释员和临床医生合作生成，旨在为自动临床笔记生成任务提供基准测试数据。

特点

该数据集的特点在于其多样性和专业性。MTS-Dialog数据集涵盖了多个医学专科的简短对话和笔记摘要，而ACI-Bench数据集则提供了完整的对话和临床笔记，并附有详细的元数据。这些数据均为合成数据，确保了隐私保护的同时，也为自然语言生成和评估方法的研究提供了丰富的实验材料。此外，该数据集已被用于多个国际研究挑战，如MEDIQA-CHAT 2023和MEDIQA-SUM 2023，进一步验证了其学术价值。

使用方法

该数据集主要用于测试和评估从医患对话中自动生成临床笔记的技术。研究人员可以使用MTS-Dialog数据集进行短文本对话的笔记生成研究，而ACI-Bench数据集则适用于完整对话的笔记生成任务。数据集中的训练、验证和测试集划分明确，便于模型训练和性能评估。此外，数据集还提供了相关的代码和论文链接，帮助用户更好地理解和使用数据。

背景与挑战

背景概述

临床访问记录摘要语料库（Clinical Visit Note Summarization Corpus）由微软研究院的Asma Ben Abacha、Wen-wai Yim等研究人员于2023年创建，旨在解决医生在电子病历系统中记录临床访问对话的繁重负担。该数据集包含两个子集：MTS-Dialog和ACI-Bench，分别涵盖了短文本对话和完整访问对话的临床记录。这些数据通过医学注释员和临床医生的贡献生成，并已在MEDIQA-CHAT 2023和MEDIQA-SUM 2023等国际研究挑战中使用。该数据集的发布为自动生成临床记录的研究提供了基准，推动了自然语言生成技术在医疗领域的应用。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，自动生成临床记录的技术需要高度准确地捕捉医生与患者对话中的关键信息，并将其转化为结构化的临床记录，这对自然语言处理模型的语义理解和生成能力提出了极高要求。其次，数据集的构建过程中面临法律和伦理问题，由于涉及患者隐私和医疗数据的敏感性，数据的收集、存储和发布必须严格遵守相关法规，这限制了数据集的规模和多样性。此外，尽管数据集通过合成数据解决了部分隐私问题，但其代表性仍受到限制，可能无法完全覆盖真实世界中的复杂临床场景。

常用场景

经典使用场景

在医疗领域，临床笔记的自动生成是一个重要的研究方向。该数据集通过提供医生与患者对话的文本数据及其对应的临床笔记，为自然语言生成技术的开发与评估提供了基础。研究人员可以利用该数据集训练和测试模型，以实现从对话中自动提取关键信息并生成结构化的临床笔记，从而减轻医生的工作负担。

衍生相关工作

该数据集衍生了一系列经典研究工作，例如MEDIQA-CHAT 2023和MEDIQA-SUM 2023国际研究挑战赛。这些挑战赛吸引了全球研究团队参与，推动了临床笔记生成技术的进步。此外，基于该数据集的研究成果已在顶级学术会议和期刊上发表，如EACL和Nature Scientific Data，进一步扩展了其在学术界的影响力。

数据集最近研究