five

aisc-team-a1/augmented-clinical-notes

收藏
Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/aisc-team-a1/augmented-clinical-notes
下载链接
链接失效反馈
官方服务:
资源简介:
Augmented Clinical Notes数据集是一个扩展的现有数据集,包含30,000个三元组,来源于不同来源:真实临床笔记(PMC-Patients)、合成对话(NoteChat)和结构化患者信息(使用GPT-4生成)。该数据集用于训练MediNote-7B和MediNote-13B模型,这些模型是从MediTron大型语言模型微调而来的临床笔记生成器。数据集主要用于从对话中提取结构化患者信息,也可用于医疗领域的其他应用,如从临床笔记中提取全面的表格患者特征。

Augmented Clinical Notes数据集是一个扩展的现有数据集,包含30,000个三元组,来源于不同来源:真实临床笔记(PMC-Patients)、合成对话(NoteChat)和结构化患者信息(使用GPT-4生成)。该数据集用于训练MediNote-7B和MediNote-13B模型,这些模型是从MediTron大型语言模型微调而来的临床笔记生成器。数据集主要用于从对话中提取结构化患者信息,也可用于医疗领域的其他应用,如从临床笔记中提取全面的表格患者特征。
提供机构:
aisc-team-a1
原始信息汇总

增强临床笔记数据集

数据集概述

  • 名称: 增强临床笔记 (Augmented Clinical Notes)
  • 任务类别: 文本生成
  • 语言: 英语
  • 大小: 10K<n<100K
  • 标签: 医疗, 健康

数据集详情

  • 特征:
    • idx: 字符串类型,唯一标识符
    • note: 字符串类型,NoteChat使用的临床笔记(可能被截断)
    • full_note: 字符串类型,完整的临床笔记
    • conversation: 字符串类型,患者-医生对话
    • summary: 字符串类型,患者信息摘要(JSON格式)
  • 分割:
    • train: 包含30,000个样本,总字节数为355,231,590
  • 下载大小: 158,941,722字节
  • 数据集大小: 355,231,590字节

数据集创建

  • 临床笔记: 主要来源是PMC-Patients数据集,包含167K个患者摘要。
  • 合成对话: 使用NoteChat数据集,包含167K个合成患者-医生对话。
  • 患者信息: 从30K个最长的临床笔记中提取结构化患者信息,使用GPT-4和定制的医疗信息模板。

数据集结构

  • 字段:
    • idx: NoteChat数据集中的唯一标识符
    • note: NoteChat使用的临床笔记
    • full_note: 完整的临床笔记
    • conversation: 患者-医生对话
    • summary: 患者信息摘要(JSON格式)

使用

  • 该数据集最初用于微调LLM以从对话中提取结构化患者信息,也可用于医疗领域的其他应用,如从临床笔记中提取综合表格患者特征。

偏差、风险和限制

  • 合成数据: NoteChat对话是合成生成的,不完全真实。
  • 代表性: PMC-Patients临床笔记来自英语PubMed Central出版物,因此过度代表英语国家的临床环境。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作