Glebkaa/MedSyn-ift
收藏Hugging Face2024-06-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Glebkaa/MedSyn-ift
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于指令微调,每个样本包含指令、输入和输出三个部分。数据来源包括Almazov病历、诊断数据、疾病数据、GPT-3.5和GPT-4生成的临床笔记、ISA病历、MedElement缩写对、医学问答、MedSpellcheck基准、医学知识图谱、MSD手册、RuMedDaNet问答对、RuMedNLI临床领域NLI任务、RuMedPrime匿名病历、RuMedTest SOGMA测试、内部临床笔记以及WikiMed疾病和药物描述。
该数据集用于指令微调,每个样本包含指令、输入和输出三个部分。数据来源包括Almazov病历、诊断数据、疾病数据、GPT-3.5和GPT-4生成的临床笔记、ISA病历、MedElement缩写对、医学问答、MedSpellcheck基准、医学知识图谱、MSD手册、RuMedDaNet问答对、RuMedNLI临床领域NLI任务、RuMedPrime匿名病历、RuMedTest SOGMA测试、内部临床笔记以及WikiMed疾病和药物描述。
提供机构:
Glebkaa
原始信息汇总
数据集概述
数据集基本信息
- 许可证: MIT
- 任务类别: 文本生成
- 语言: 俄语
- 标签: 医疗
数据集文件
-
文件名:
data-ift.csv -
用途: 用于指令微调的数据
-
数据结构:
"instruction": "Some kind of instruction." "input": "Some prior information." "output": "Desirable output."
数据源详情
| 数据源 | 原始样本数 | 创建样本数 | 描述 |
|---|---|---|---|
| Almazov anamneses | 2356 | 6861 | Almazov国家医学研究中心的急性冠状动脉综合征(ACS)患者匿名电子病历集。 |
| Diagnosis data | 286 | 286 | 包含诊断描述和相应症状的诊断数据。 |
| Diseases data | 2945 | 4890 | 来自Wikipedia的疾病及其症状描述数据。 |
| GPT-3.5 data | 11480 | 11480 | 基于疾病相关症状生成的临床笔记。 |
| GPT-4 data with symptoms | 5006 | 5006 | 基于疾病相关症状生成的临床笔记。 |
| ISA anamneses | 161 | 483 | 来自俄罗斯科学院研究机构的病人病史大片段集。 |
| MedElement | 1741 | 1741 | 来自MedElement门户的缩写及其定义对。 |
| Medical QA | 10937 | 10937 | 来自医疗相关论坛的问答帖子。 |
| MedSpellcheck | 1054 | 1054 | MedSpellcheck基准包含可能含有拼写错误的句子和相应的修正。 |
| Medical Knowledge Graph | 13582 | 6000 | 从MKG提取的疾病、药物和症状的复杂指令描述。 |
| MSD Manual | 162 | 1789 | 来自MSD Manuals的疾病及其相关症状的详细描述。 |
| RuMedDaNet | 1564 | 1564 | 医学相关领域(药理学、解剖学、治疗医学等)的问答对。 |
| RuMedNLI | 12627 | 12627 | 临床领域的NLI任务,MedNLI数据的全翻译对应。 |
| RuMedPrime | 7625 | 33465 | SSMU医院访问者的匿名医疗病史。 |
| RuMedTest SOGMA | 770 | 355 | RuMedTest是一个关于不同医学领域(胃肠病学、心血管疾病等)的5个问题测试。 |
| In-house clinical notes | 9024 | 19719 | 匿名的内部患者临床笔记集。 |
| WikiMed | 13324 | 33951 | 来自WikiMed的疾病和药物名称描述集。 |



