five

Shekswess/medical_llama3_instruct_dataset_short

收藏
Hugging Face2024-04-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Shekswess/medical_llama3_instruct_dataset_short
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为Llama 2 LLMs的指令监督微调而创建的,结合了多个医疗数据集,并从中提取了2000个条目。数据集的主要来源包括Medical Meadow Wikidoc和Medquad。Medical Meadow Wikidoc数据集包含从WikiDoc平台提取的问答对,WikiDoc是一个医疗专业人士协作分享当代医学知识的在线平台。Medquad数据集则是一个包含47,457个医疗问答对的综合集合,这些问答对来自美国国立卫生研究院(NIH)的12个权威来源。数据集的特征包括输出、输入、指令和提示,且主要用于问答任务。

This dataset was created for instruction fine-tuning of Llama 2 LLMs, integrating multiple medical datasets and extracting 2000 entries from them. Its main sources include Medical Meadow Wikidoc and Medquad. The Medical Meadow Wikidoc dataset contains question-answer pairs extracted from WikiDoc, an online platform where medical professionals collaborate to share contemporary medical knowledge. The Medquad dataset is a comprehensive collection of 47,457 medical question-answer pairs sourced from 12 authoritative resources of the U.S. National Institutes of Health (NIH). The dataset features output, input, instruction and prompt, and is primarily used for question-answering tasks.
提供机构:
Shekswess
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 数据规模: 1K<n<10K
  • 任务类别: 问答
  • 标签: 医疗

数据集结构

  • 特征:
    • output: 字符串
    • input: 字符串
    • instruction: 字符串
    • prompt: 字符串
  • 分割:
    • train: 2000个样本, 4416252字节
  • 下载大小: 1939481字节
  • 数据集大小: 4416252字节

配置

  • 默认配置:
    • train分割路径: data/train-*

数据来源

  • Medical meadow wikidoc: 从WikiDoc提取的问答对,使用GTP-3.5-Turbo将段落标题转换为问题,段落内容作为答案。
  • Medquad: 包含47,457个医学问答对,来自12个权威来源,涵盖37种问题类型,包括疾病、药物和医疗程序。数据集还包含XML文件中的额外注释,如问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作