Shekswess/medical_llama3_instruct_dataset_short
收藏Hugging Face2024-04-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Shekswess/medical_llama3_instruct_dataset_short
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为Llama 2 LLMs的指令监督微调而创建的,结合了多个医疗数据集,并从中提取了2000个条目。数据集的主要来源包括Medical Meadow Wikidoc和Medquad。Medical Meadow Wikidoc数据集包含从WikiDoc平台提取的问答对,WikiDoc是一个医疗专业人士协作分享当代医学知识的在线平台。Medquad数据集则是一个包含47,457个医疗问答对的综合集合,这些问答对来自美国国立卫生研究院(NIH)的12个权威来源。数据集的特征包括输出、输入、指令和提示,且主要用于问答任务。
This dataset was created for instruction fine-tuning of Llama 2 LLMs, integrating multiple medical datasets and extracting 2000 entries from them. Its main sources include Medical Meadow Wikidoc and Medquad. The Medical Meadow Wikidoc dataset contains question-answer pairs extracted from WikiDoc, an online platform where medical professionals collaborate to share contemporary medical knowledge. The Medquad dataset is a comprehensive collection of 47,457 medical question-answer pairs sourced from 12 authoritative resources of the U.S. National Institutes of Health (NIH). The dataset features output, input, instruction and prompt, and is primarily used for question-answering tasks.
提供机构:
Shekswess
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 数据规模: 1K<n<10K
- 任务类别: 问答
- 标签: 医疗
数据集结构
- 特征:
output: 字符串input: 字符串instruction: 字符串prompt: 字符串
- 分割:
train: 2000个样本, 4416252字节
- 下载大小: 1939481字节
- 数据集大小: 4416252字节
配置
- 默认配置:
train分割路径:data/train-*
数据来源
- Medical meadow wikidoc: 从WikiDoc提取的问答对,使用GTP-3.5-Turbo将段落标题转换为问题,段落内容作为答案。
- Medquad: 包含47,457个医学问答对,来自12个权威来源,涵盖37种问题类型,包括疾病、药物和医疗程序。数据集还包含XML文件中的额外注释,如问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型。



