five

Technoculture/synthetic-clinical-notes-embedded

收藏
Hugging Face2024-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Technoculture/synthetic-clinical-notes-embedded
下载链接
链接失效反馈
官方服务:
资源简介:
Synthetic Clinical Notes数据集是基于starmpcc/Asclepius-Synthetic-Clinical-Notes的后续处理版本,转换为Alpaca格式(包含instruction、input和output),并使用BAAI/bge-small-en-v1.5模型为输入和输出列添加了嵌入。数据集的原始数据来源于PubMed Central (PMC)和MIMIC 3,处理细节包括使用BAAI/bge-small-en-v1.5模型生成嵌入。数据集的多样性通过GPT-4进行评估,每个样本都给出了多样性的评分和解释。

Synthetic Clinical Notes数据集是基于starmpcc/Asclepius-Synthetic-Clinical-Notes的后续处理版本,转换为Alpaca格式(包含instruction、input和output),并使用BAAI/bge-small-en-v1.5模型为输入和输出列添加了嵌入。数据集的原始数据来源于PubMed Central (PMC)和MIMIC 3,处理细节包括使用BAAI/bge-small-en-v1.5模型生成嵌入。数据集的多样性通过GPT-4进行评估,每个样本都给出了多样性的评分和解释。
提供机构:
Technoculture
原始信息汇总

Synthetic Clinical Notes 数据集概述

基本信息

  • 语言: 英语
  • 许可证: MIT
  • 数据集大小: 100K<n<1M
  • 任务类别: 问答、摘要
  • 名称: Synthetic Clinical Notes
  • 标签: starmpcc/Asclepius-Synthetic-Clinical-Notes, BAAI/bge-small-en-v1.5, medical

数据集结构

  • 特征:
    • output: 字符串
    • task: 字符串
    • instruction: 字符串
    • input: 字符串
    • input_embedding: 浮点数序列
    • output_embedding: 浮点数序列
  • 分割:
    • train: 158114个样本, 1199998956字节
  • 下载大小: 967764780字节
  • 数据集大小: 1199998956字节

配置

  • 配置名称: default
  • 数据文件:
    • train: data/train-*

数据详情

  • 样本数量: 158k
  • 令牌数量: 648m
  • 原始数据来源: PubMed Central (PMC) 和 MIMIC 3
  • 处理细节:
    • 原始数据集: starmpcc/Asclepius-Synthetic-Clinical-Notes
    • 论文: https://arxiv.org/pdf/2309.00237.pdf
    • 嵌入模型: BAAI/bge-small-en-v1.5

数据多样性

  • 示例输出:
    • 137083: 患者严重生物瓣膜二尖瓣狭窄和严重三尖瓣反流的指代表达
    • 113558: 患者乙状结肠穿孔的指代解析
    • 97204: 生物制剂治疗患者纹身表现复发
    • 53669: 患者呼吸状态的指代解析
    • 39865: Stickler综合征的命名实体识别
    • 85187: 患者脊柱转移性Leydig细胞瘤的诊断和治疗
    • 99107: 患者心脏主动脉瓣和心室间隔的问题
    • 65981: 10岁女性患者的非移位舟状骨骨折诊断
    • 68814: 医院病程部分缩写的扩展形式
    • 16059: 患者流感B的诊断和治疗

数据血统

  • Technoculture/Synthetic-Clinical-Notes ↳ starmpcc/Asclepius-Synthetic-Clinical-Notes ↳ zhengyun21/PMC-Patients 代码 ↳ PubMed Central (PMC)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作