five

Shekswess/medical_llama3_instruct_dataset

收藏
Hugging Face2024-04-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Shekswess/medical_llama3_instruct_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为Llama 3 LLMs的指令监督微调而创建的,结合了两个医学数据集:Medical Meadow Wikidoc和Medquad。Medical Meadow Wikidoc数据集包含从WikiDoc平台提取的问答对,WikiDoc是一个由医学专业人士共同贡献和分享当代医学知识的在线平台。Medquad数据集则包含了来自美国国立卫生研究院(NIH)12个权威来源的47,457个医学问答对,涵盖了广泛的医学主题。

该数据集是为Llama 3 LLMs的指令监督微调而创建的,结合了两个医学数据集:Medical Meadow Wikidoc和Medquad。Medical Meadow Wikidoc数据集包含从WikiDoc平台提取的问答对,WikiDoc是一个由医学专业人士共同贡献和分享当代医学知识的在线平台。Medquad数据集则包含了来自美国国立卫生研究院(NIH)12个权威来源的47,457个医学问答对,涵盖了广泛的医学主题。
提供机构:
Shekswess
原始信息汇总

数据集概述

语言

  • 英语(en)

任务类别

  • 问答(question-answering)

数据集信息

特征

  • output:字符串类型
  • input:字符串类型
  • instruction:字符串类型
  • prompt:字符串类型

分割

  • train
    • 字节数:72332810
    • 样本数:26357

大小

  • 下载大小:29455477
  • 数据集大小:72332810

配置

  • default
    • 数据文件:
      • traindata/train-*

标签

  • 医学(medical)

数据集来源

  • Medical meadow wikidoc
  • Medquad

Medical meadow wikidoc

  • 来源:WikiDoc,一个在线平台,医学专业人员在此协作贡献和分享当代医学知识。
  • 内容:包含问题-答案对,从WikiDoc的“Living Textbook”和“Patient Information”部分提取。
  • 处理:使用GTP-3.5-Turbo将段落标题转化为问题,段落内容作为答案。

Medquad

  • 来源:National Institutes of Health(NIH)的12个权威来源。
  • 内容:包含47,457个医学问题-答案对,涵盖37种不同的问题类型,涉及疾病、药物和医疗程序等。
  • 附加信息:XML文件中包含问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型等注释。
  • 分类:问题焦点分为疾病、药物或其他三类,MedlinePlus部分仅关注疾病。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作