aisc-team-a1/Asclepius-Synthetic-Clinical-Notes
收藏Hugging Face2024-03-05 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/aisc-team-a1/Asclepius-Synthetic-Clinical-Notes
下载链接
链接失效反馈官方服务:
资源简介:
Asclepius数据集是一个合成的临床笔记和指令数据集,用于构建临床大型语言模型。该数据集包含临床笔记、问题和答案的格式,数据来源于PMC-Patients病例报告,并使用GPT-3.5生成指令-答案对。数据集支持8种任务,包括命名实体识别、缩写扩展、关系提取、时间信息提取、共指消解、释义、摘要和问答。数据集的语言为英语,结构包括患者ID、笔记、问题、答案和任务类别。数据集的创建使用了GPT-3.5-turbo模型,并提供了多个模型变体。数据集的许可证为CC-BY-NC-SA 4.0,并提供了引用信息。
The Asclepius Dataset is a synthetic clinical note and instruction dataset developed for constructing clinical large language models (LLMs). The dataset follows the structure of clinical notes, questions, and answers, with its source data derived from PMC-Patients case reports, and its instruction-answer pairs generated via GPT-3.5. It supports eight distinct tasks, including named entity recognition, abbreviation expansion, relation extraction, temporal information extraction, coreference resolution, paraphrasing, summarization, and question answering. The dataset uses English as its language, and its schema includes patient ID, clinical note, question, answer, and task category. It was constructed using the GPT-3.5-turbo model, with multiple model variants provided. The dataset is licensed under CC-BY-NC-SA 4.0, and complete citation information is available.
提供机构:
aisc-team-a1
原始信息汇总
Asclepius: Synthetic Clinical Notes & Instruction Dataset
数据集描述
数据集概述
- 名称: Asclepius: Synthetic Clinical Notes & Instruction Dataset
- 语言: 英语
- 标签: 医学, 合成
- 大小类别: 100K<n<1M
- 许可证: CC-BY-NC-SA 4.0
数据集组成
- 格式: 临床笔记 - 问题 - 答案
- 来源: 从 PMC-Patients 病例报告中合成的笔记,使用 GPT-3.5 生成
- 数量: 157k 合成出院总结的指令-答案对
支持的任务
- 命名实体识别
- 缩写扩展
- 关系抽取
- 时间信息抽取
- 共指消解
- 释义
- 摘要
- 问答
数据集结构
数据实例
- 文件:
synthetic.csv - 内容: 临床笔记 - 问题 - 答案对
数据字段
patient_id: PMC-Patients 中的唯一病例报告IDpatient: 病例报告文本question: GPT-3.5 从患者生成的指令answer: GPT-3.5 为给定病例报告和问题生成的答案task: 问题的对应类别
数据集创建
源数据
注释
- 使用 GPT-3.5-turbo (版本 0314)
附加信息
模型
变体
- 从 MIMIC-III 出院总结生成的指令-答案对及训练的模型可在 Physionet 获取
引用信息
@misc{kweon2023publicly, title={Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes}, author={Sunjun Kweon and Junu Kim and Jiyoun Kim and Sujeong Im and Eunbyeol Cho and Seongsu Bae and Jungwoo Oh and Gyubok Lee and Jong Hak Moon and Seng Chan You and Seungjin Baek and Chang Hoon Han and Yoon Bin Jung and Yohan Jo and Edward Choi}, year={2023}, eprint={2309.00237}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
在临床医学自然语言处理领域,Asclepius数据集的构建体现了前沿的合成数据生成策略。该数据集以PMC-Patients病例报告为原始素材,借助GPT-3.5模型进行深度加工,首先生成结构化的合成临床笔记。随后,针对这些笔记内容,采用精心设计的提示模板,自动化生成涵盖八类核心临床任务的指令-答案对,最终形成包含超过15万条样本的标准化数据集,为临床大型语言模型的训练奠定了高质量数据基础。
特点
Asclepius数据集的核心特征在于其高度结构化的临床知识表示与广泛的任务覆盖范围。数据集以患者标识符、临床笔记、问题、答案及任务类别为基本字段,构建了清晰的临床叙事逻辑链条。其独特之处在于囊括了命名实体识别、缩写扩展、关系抽取、时间信息提取、指代消解、释义、摘要生成及问答八种关键临床自然语言处理任务,实现了对临床文本理解与生成能力的全面评估与训练支持。
使用方法
该数据集主要服务于临床大型语言模型的开发与评估。研究人员可直接加载数据集,利用其标准化的临床笔记-问题-答案三元组结构,进行模型的有监督微调或指令遵循能力训练。具体应用时,可根据‘task’字段筛选特定任务样本,构建专项评测集或平衡训练集。其合成特性使得数据使用无需受真实患者隐私约束,同时配套发布的多个预训练模型版本,为后续研究提供了可直接比较的基准与进一步优化的起点。
背景与挑战
背景概述
Asclepius合成临床笔记与指令数据集由哈佛医学院AISC课程团队于2023年构建,其核心研究聚焦于通过生成式人工智能技术解决临床自然语言处理中的多任务学习难题。该数据集以PMC-Patients病例报告为源数据,借助GPT-3.5模型合成临床笔记并生成涵盖命名实体识别、关系提取、摘要生成等八类任务的指令-答案对,旨在为临床大型语言模型的训练提供高质量、可公开共享的语料资源。该数据集的发布显著推动了医疗人工智能领域在数据隐私约束下的模型开发进程,为临床文本理解与生成任务建立了新的基准。
当前挑战
该数据集致力于应对临床自然语言处理中多任务联合学习的核心挑战,包括医疗实体嵌套识别、时序关系推理、医学术语消歧等复杂语言现象的精准建模。在构建过程中,研究团队面临合成数据真实性验证的难题,需确保GPT-3.5生成的临床笔记在医学逻辑与事实一致性方面符合专业标准;同时,跨任务指令设计的系统性与平衡性要求极高,既要覆盖临床文本理解的多元维度,又要避免任务间偏差导致的模型过拟合。此外,源数据PMC-Patients的领域覆盖局限性也为数据集的临床普适性带来潜在制约。
常用场景
经典使用场景
在临床自然语言处理领域,Asclepius数据集以其合成的临床笔记与指令对形式,为构建和评估临床大型语言模型提供了关键资源。该数据集通过模拟真实医疗记录中的问答交互,广泛应用于模型训练与微调,特别是在处理命名实体识别、关系提取等八项核心任务时,展现出高度的适配性。其合成数据的设计有效缓解了医疗数据隐私限制带来的挑战,成为推动临床语言智能发展的基础工具。
衍生相关工作
围绕Asclepius数据集,已衍生出多个具有影响力的研究工作,包括Asclepius-7B、Asclepius-13B及其基于Llama2架构的变体模型。这些模型在临床问答、文本摘要等任务上展现了优异性能。此外,该数据集的构建方法启发了后续合成医疗数据的研究,例如基于MIMIC-III出院摘要的指令对扩展,进一步丰富了公开可用的医疗语言资源,为社区贡献了可复现的基准与模型家族。
数据集最近研究
最新研究方向
在医疗人工智能领域,合成临床笔记数据集正成为推动临床大型语言模型发展的关键资源。Asclepius数据集通过生成合成临床笔记与指令对,为模型训练提供了丰富且多样化的医疗文本素材,有效缓解了真实患者数据面临的隐私与获取限制。当前研究聚焦于利用此类数据集优化模型在命名实体识别、关系抽取、时序信息提取等八项核心临床任务上的性能,探索模型在复杂医疗语境下的理解与推理能力。随着合成数据生成技术的进步,该数据集促进了可公开共享的临床语言模型的开发,为医疗决策支持系统提供了可靠基础,并在跨机构协作与模型泛化方面展现出深远影响。
以上内容由遇见数据集搜集并总结生成



