five

Shekswess/llama3_medquad_instruct_dataset

收藏
Hugging Face2024-04-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Shekswess/llama3_medquad_instruct_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为基于Medquad数据集的Llama 3 LLMs指令监督微调而创建的。Medquad数据集是一个包含47,457个医学问题-答案对的综合集合,这些对来自美国国立卫生研究院(NIH)的12个权威来源,涵盖癌症、糖尿病、罕见病等多个医学领域。数据集还包括XML文件中的额外注释,如问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型等。此外,问题焦点被分类为疾病、药物或其他三类,但MedlinePlus的集合仅关注疾病。

该数据集是为基于Medquad数据集的Llama 3 LLMs指令监督微调而创建的。Medquad数据集是一个包含47,457个医学问题-答案对的综合集合,这些对来自美国国立卫生研究院(NIH)的12个权威来源,涵盖癌症、糖尿病、罕见病等多个医学领域。数据集还包括XML文件中的额外注释,如问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型等。此外,问题焦点被分类为疾病、药物或其他三类,但MedlinePlus的集合仅关注疾病。
提供机构:
Shekswess
原始信息汇总

数据集概述

语言

  • 英语(en)

数据规模

  • 10K<n<100K

任务类别

  • 问答(question-answering)

数据集信息

特征

  • input: 字符串类型
  • output: 字符串类型
  • instruction: 字符串类型
  • prompt: 字符串类型

分割

  • train:
    • 字节数: 49472054
    • 样本数: 16359

下载和数据集大小

  • 下载大小: 18071045
  • 数据集大小: 49472054

配置

  • default:
    • 数据文件:
      • 分割: train
      • 路径: data/train-*

标签

  • 医疗(medical)

数据集来源

  • Medquad 数据集(基于 MedQuAD)

MedQuAD 数据集详情

  • 包含 47,457 个医学问答对
  • 来源: 12 个美国国立卫生研究院(NIH)权威来源,如 cancer.gov, niddk.nih.gov, GARD, MedlinePlus Health Topics 等
  • 问答对涵盖 37 种不同的问题类型,涉及广泛的医学主题,包括疾病、药物和医疗程序
  • 包含 XML 文件中的额外注释,支持信息检索(IR)和自然语言处理(NLP)任务
  • 注释包括问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型
  • 问题焦点分为疾病、药物或其他三大类,MedlinePlus 数据集仅关注疾病
搜集汇总
数据集介绍
main_image_url
构建方式
Shekswess/llama3_medquad_instruct_dataset数据集的构建,旨在为Llama 3语言模型进行指令微调。该数据集基于Medquad数据集,通过整合来自NIH下属12个权威机构的47,457个医疗问答对,涵盖了从疾病、药物到医疗程序等广泛医学主题,形成了具有丰富标注信息的训练资源。
特点
本数据集的特色在于其深度整合了医学领域的专业知识,不仅包含了问答对,还额外标注了诸如问题类型、关注点、同义词、UMLS统一医学语言系统的唯一标识符以及语义类型等信息。这些详尽的标注使得数据集在信息检索和自然语言处理任务中表现出极高的适用性。
使用方法
在使用Shekswess/llama3_medquad_instruct_dataset数据集时,用户需先通过其提供的配置文件了解数据集结构,随后下载训练集,按照数据集的划分进行模型的训练与微调。该数据集支持指令监督微调,有助于提升Llama 3模型在医疗问答任务上的性能表现。
背景与挑战
背景概述
Shekswess/llama3_medquad_instruct_dataset数据集,是在机器学习与医疗信息处理领域的一个研究产物。该数据集基于Medquad数据集构建,旨在为指令监督微调Llama 3语言模型提供支持。Medquad数据集由47,457个医疗问题-答案对组成,这些数据源于美国国立卫生研究院下属的12个权威机构,涵盖疾病、药物和医疗程序等多个医疗主题。该数据集的创建,不仅丰富了医疗领域的信息资源,也为自然语言处理和信息检索任务提供了有力支撑,对于推动医疗信息智能化具有重要的研究价值。
当前挑战
该数据集在构建和应用过程中所面临的挑战主要包括:一是如何确保数据的质量和准确性,特别是在涉及医疗信息的敏感和复杂背景下;二是针对多样化的医疗问题类型,如何有效地进行模型训练和微调,以满足实际应用的需求;三是如何在保持数据隐私和安全的前提下,实现对大规模医疗数据的有效利用。这些挑战既反映了数据集构建的复杂性,也揭示了医疗信息处理领域的研究前沿和实际应用难点。
常用场景
经典使用场景
在自然语言处理领域,Shekswess/llama3_medquad_instruct_dataset 数据集的典型应用场景是对大型语言模型进行指令微调,以增强其在医疗领域的问答能力。该数据集提供了丰富的指令和上下文信息,有助于模型更精确地理解和响应复杂的医疗咨询。
解决学术问题
该数据集有效解决了学术研究中,如何使机器学习模型更好地适应专业领域,尤其是在医疗信息检索和自然语言理解方面的问题。它通过提供结构化的医学问答对,促进了信息检索和语义理解的结合,为医学文本分析领域的研究提供了坚实基础。
衍生相关工作
基于此数据集,研究人员已经开展了一系列相关工作,如开发针对特定医疗问题的问答系统,以及构建能够进行语义角色标注和实体识别的模型。这些研究进一步拓宽了数据集的应用范围,对医疗信息处理和智能医疗服务的发展产生了深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作