starmpcc/Asclepius-Synthetic-Clinical-Notes

Name: starmpcc/Asclepius-Synthetic-Clinical-Notes
Creator: starmpcc
Published: 2024-06-14 04:16:04
License: 暂无描述

Hugging Face2024-06-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/starmpcc/Asclepius-Synthetic-Clinical-Notes

下载链接

链接失效反馈

官方服务：

资源简介：

Asclepius数据集是一个包含合成临床笔记和指令的官方数据集，用于构建临床大型语言模型。数据集采用临床笔记-问题-答案格式，通过GPT-3.5从PMC-Patients数据集合成笔记，并生成157k个合成出院总结的指令-答案对。该数据集支持包括命名实体识别、缩写扩展、关系提取等在内的8种任务，主要使用英语。

提供机构：

starmpcc

原始信息汇总

Asclepius: Synthetic Clinical Notes & Instruction Dataset 概述

数据集描述

名称: Asclepius: Synthetic Clinical Notes & Instruction Dataset
语言: 英语
标签: 医疗, 合成
任务类别:
- 问答
- 摘要
- 文本生成
- 对话
- 命名实体识别
- 缩写扩展
- 关系提取
- 时间信息提取
- 指代消解
- 改写
- 摘要
- 问答

数据集结构

数据实例: synthetic.csv
- 包含临床笔记 - 问题 - 答案对
数据字段:
- patient_id: 来自 PMC-Patients 的唯一案例报告 ID
- patient: 案例报告文本
- question: 由 GPT-3.5 生成的指令
- answer: 针对给定案例报告和问题的 GPT-3.5 生成答案
- task: 问题对应的类别

数据集创建

源数据: PMC-Patients
注释工具: GPT-3.5-turbo (版本 0314)

许可证信息

许可证: CC-BY-NC-SA 4.0

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，高质量标注数据的稀缺性长期制约着医疗大语言模型的发展。Asclepius-Synthetic-Clinical-Notes数据集通过创新的合成方法应对这一挑战，其构建过程始于从PMC-Patients病例报告中提取真实临床文本作为基础素材。随后，研究团队运用GPT-3.5模型对这些原始病例报告进行深度加工，首先生成结构化的合成出院摘要，模拟真实临床文档的叙述逻辑与专业术语。在此基础上，进一步利用精心设计的提示模板，自动化生成涵盖八大核心临床任务的指令-答案对，最终形成包含超过15万条三元组数据的完整语料库。

使用方法

在医疗人工智能的研究与应用中，该数据集主要服务于临床大语言模型的训练与评估。研究人员可直接加载`synthetic.csv`文件，利用其中的`patient`、`question`、`answer`及`task`字段构建监督学习任务。数据集支持端到端的模型训练，用户可根据特定任务类型筛选数据，进行命名实体识别、摘要生成或问答系统等专项模型的开发。同时，该数据集与已发布的Asclepius系列预训练模型形成配套生态，研究者既可将其作为基础训练数据从头构建模型，也可用于对现有模型进行指令微调或性能评测，推动临床语言理解技术向实用化迈进。

背景与挑战

背景概述

在医疗人工智能领域，高质量临床数据的稀缺性与隐私限制长期制约着大型语言模型的研发。2023年，由Sunjun Kweon等研究人员构建的Asclepius合成临床笔记与指令数据集应运而生，旨在通过生成式人工智能技术突破这一瓶颈。该数据集以PMC-Patients病例报告为源，借助GPT-3.5合成临床笔记并生成涵盖命名实体识别、关系抽取、摘要生成等八类任务的指令-答案对，为构建可公开共享的临床大语言模型提供了关键训练资源，显著推动了医疗自然语言处理技术的开放创新。

当前挑战

该数据集致力于解决临床自然语言处理中多任务理解的综合性挑战，包括从非结构化文本中精准提取医学实体、解析时序关系、消解指代歧义以及生成专业摘要等复杂问题。在构建过程中，面临合成数据真实性验证的难题，需确保生成的临床笔记在医学逻辑与术语准确性上符合专业标准；同时，指令-答案对的多样性与任务平衡性亦需精细设计，以避免模型训练中的偏差，这对提示工程与质量评估提出了较高要求。

常用场景

经典使用场景

在临床自然语言处理领域，Asclepius数据集以其合成临床笔记与指令对的独特结构，为构建和评估临床大型语言模型提供了关键资源。该数据集通过模拟真实医疗文档的问答交互，广泛应用于医疗文本的命名实体识别、关系抽取、摘要生成等八项核心任务，成为训练模型理解复杂医学术语和临床推理流程的基准平台。

解决学术问题

该数据集有效应对了医疗数据隐私限制下高质量标注数据稀缺的学术困境。通过基于PMC-Patients病例报告生成的合成临床笔记，研究者得以在符合伦理规范的前提下，探索临床语言模型的泛化能力与鲁棒性。其涵盖的时序信息抽取、指代消解等任务，为解析医疗文本中的隐含逻辑关系提供了结构化研究框架，推动了临床自然语言处理方法论的发展。

实际应用

在实际医疗场景中，该数据集支撑的模型能够辅助临床决策支持系统，例如自动生成出院摘要、解析病历中的关键医疗实体关系。医疗机构可借助此类技术提升病历文档的处理效率，减少人工录入错误，同时为远程医疗和个性化治疗建议提供自然语言交互基础，促进医疗信息系统的智能化转型。

数据集最近研究