five

Glebkaa/MedSyn-ift

收藏
Hugging Face2024-06-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Glebkaa/MedSyn-ift
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于指令微调,每个样本包含指令、输入和输出三个部分。数据来源包括Almazov病历、诊断数据、疾病数据、GPT-3.5和GPT-4生成的临床笔记、ISA病历、MedElement缩写对、医学问答、MedSpellcheck基准、医学知识图谱、MSD手册、RuMedDaNet问答对、RuMedNLI临床领域NLI任务、RuMedPrime匿名病历、RuMedTest SOGMA测试、内部临床笔记以及WikiMed疾病和药物描述。

该数据集用于指令微调,每个样本包含指令、输入和输出三个部分。数据来源包括Almazov病历、诊断数据、疾病数据、GPT-3.5和GPT-4生成的临床笔记、ISA病历、MedElement缩写对、医学问答、MedSpellcheck基准、医学知识图谱、MSD手册、RuMedDaNet问答对、RuMedNLI临床领域NLI任务、RuMedPrime匿名病历、RuMedTest SOGMA测试、内部临床笔记以及WikiMed疾病和药物描述。
提供机构:
Glebkaa
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 俄语
  • 标签: 医疗

数据集文件

  • 文件名: data-ift.csv

  • 用途: 用于指令微调的数据

  • 数据结构:

    "instruction": "Some kind of instruction." "input": "Some prior information." "output": "Desirable output."

数据源详情

数据源 原始样本数 创建样本数 描述
Almazov anamneses 2356 6861 Almazov国家医学研究中心的急性冠状动脉综合征(ACS)患者匿名电子病历集。
Diagnosis data 286 286 包含诊断描述和相应症状的诊断数据。
Diseases data 2945 4890 来自Wikipedia的疾病及其症状描述数据。
GPT-3.5 data 11480 11480 基于疾病相关症状生成的临床笔记。
GPT-4 data with symptoms 5006 5006 基于疾病相关症状生成的临床笔记。
ISA anamneses 161 483 来自俄罗斯科学院研究机构的病人病史大片段集。
MedElement 1741 1741 来自MedElement门户的缩写及其定义对。
Medical QA 10937 10937 来自医疗相关论坛的问答帖子。
MedSpellcheck 1054 1054 MedSpellcheck基准包含可能含有拼写错误的句子和相应的修正。
Medical Knowledge Graph 13582 6000 从MKG提取的疾病、药物和症状的复杂指令描述。
MSD Manual 162 1789 来自MSD Manuals的疾病及其相关症状的详细描述。
RuMedDaNet 1564 1564 医学相关领域(药理学、解剖学、治疗医学等)的问答对。
RuMedNLI 12627 12627 临床领域的NLI任务,MedNLI数据的全翻译对应。
RuMedPrime 7625 33465 SSMU医院访问者的匿名医疗病史。
RuMedTest SOGMA 770 355 RuMedTest是一个关于不同医学领域(胃肠病学、心血管疾病等)的5个问题测试。
In-house clinical notes 9024 19719 匿名的内部患者临床笔记集。
WikiMed 13324 33951 来自WikiMed的疾病和药物名称描述集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作