Technoculture/synthetic-clinical-notes-embedded
收藏Hugging Face2024-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Technoculture/synthetic-clinical-notes-embedded
下载链接
链接失效反馈官方服务:
资源简介:
Synthetic Clinical Notes数据集是基于starmpcc/Asclepius-Synthetic-Clinical-Notes的后续处理版本,转换为Alpaca格式(包含instruction、input和output),并使用BAAI/bge-small-en-v1.5模型为输入和输出列添加了嵌入。数据集的原始数据来源于PubMed Central (PMC)和MIMIC 3,处理细节包括使用BAAI/bge-small-en-v1.5模型生成嵌入。数据集的多样性通过GPT-4进行评估,每个样本都给出了多样性的评分和解释。
Synthetic Clinical Notes数据集是基于starmpcc/Asclepius-Synthetic-Clinical-Notes的后续处理版本,转换为Alpaca格式(包含instruction、input和output),并使用BAAI/bge-small-en-v1.5模型为输入和输出列添加了嵌入。数据集的原始数据来源于PubMed Central (PMC)和MIMIC 3,处理细节包括使用BAAI/bge-small-en-v1.5模型生成嵌入。数据集的多样性通过GPT-4进行评估,每个样本都给出了多样性的评分和解释。
提供机构:
Technoculture
原始信息汇总
Synthetic Clinical Notes 数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 数据集大小: 100K<n<1M
- 任务类别: 问答、摘要
- 名称: Synthetic Clinical Notes
- 标签: starmpcc/Asclepius-Synthetic-Clinical-Notes, BAAI/bge-small-en-v1.5, medical
数据集结构
- 特征:
output: 字符串task: 字符串instruction: 字符串input: 字符串input_embedding: 浮点数序列output_embedding: 浮点数序列
- 分割:
train: 158114个样本, 1199998956字节
- 下载大小: 967764780字节
- 数据集大小: 1199998956字节
配置
- 配置名称: default
- 数据文件:
train: data/train-*
数据详情
- 样本数量: 158k
- 令牌数量: 648m
- 原始数据来源: PubMed Central (PMC) 和 MIMIC 3
- 处理细节:
- 原始数据集: starmpcc/Asclepius-Synthetic-Clinical-Notes
- 论文: https://arxiv.org/pdf/2309.00237.pdf
- 嵌入模型: BAAI/bge-small-en-v1.5
数据多样性
- 示例输出:
- 137083: 患者严重生物瓣膜二尖瓣狭窄和严重三尖瓣反流的指代表达
- 113558: 患者乙状结肠穿孔的指代解析
- 97204: 生物制剂治疗患者纹身表现复发
- 53669: 患者呼吸状态的指代解析
- 39865: Stickler综合征的命名实体识别
- 85187: 患者脊柱转移性Leydig细胞瘤的诊断和治疗
- 99107: 患者心脏主动脉瓣和心室间隔的问题
- 65981: 10岁女性患者的非移位舟状骨骨折诊断
- 68814: 医院病程部分缩写的扩展形式
- 16059: 患者流感B的诊断和治疗
数据血统
- Technoculture/Synthetic-Clinical-Notes ↳ starmpcc/Asclepius-Synthetic-Clinical-Notes ↳ zhengyun21/PMC-Patients 代码 ↳ PubMed Central (PMC)



