Glebkaa/MedSyn-synthetic
收藏Hugging Face2024-06-10 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Glebkaa/MedSyn-synthetic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个合成的临床笔记数据集,包含41,185个样本,涵盖219个ICD-10代码。数据集主要用于文本分类和文本生成任务,涉及医疗领域,语言为俄语。数据集的生成使用了多种模型,包括GPT-3.5、GPT-4、LLaMA-7b和LLaMA-13b。此外,部分真实的临床笔记被隐藏并替换为`private_data`标记,30个来自私有真实数据的样本被完全匿名化并保留在数据集中。
提供机构:
Glebkaa
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 文本分类
- 文本生成
- 语言: 俄语
- 标签: 医疗
数据集详情
- 文件:
generated.csv - 样本数量: 41,185
- ICD-10代码数量: 219
数据字段
| 字段名 | 描述 |
|---|---|
| idx | 唯一样本标识符 |
| ICD-10 | 用于先前数据采样的目标ICD-10代码 |
| generation_model | 用于样本生成的模型(GTP-3.5, GPT-4, LLaMA-7b, LLaMA-13b) |
| prompt | 用于样本生成的提示 |
| prior | 用于样本生成的先前数据类型 |
| example | 生成过程中是否存在示例的布尔变量 |
| example | 示例来源(开源RuMedPrime或私有医疗数据) |
| response | 模型生成的结果 |
| symptoms | 用于提示创建的症状 |
| anamnesis | 用作提示中样式示例的临床笔记示例 |
| symptoms_recall | 响应和症状的BERT分数 |
| anamnesis_precision | 响应和病史的BERT分数 |
数据处理
- 部分真实临床笔记中的内容被隐藏并替换为
private_data标记。 - 30个来自私有真实数据的样本被完全匿名化(手动处理)并保留在数据集中。



