five

Shekswess/gemma_medquad_instruct_dataset|医学数据集|问答系统数据集

收藏
hugging_face2024-04-13 更新2024-06-11 收录
医学
问答系统
下载链接:
https://hf-mirror.com/datasets/Shekswess/gemma_medquad_instruct_dataset
下载链接
链接失效反馈
资源简介:
Medquad数据集是一个包含47,457个医学问答对的综合集合,这些问答对来自美国国立卫生研究院(NIH)的12个权威来源,涵盖癌症、糖尿病、罕见疾病等多个医学领域。数据集包含37种不同的问题类型,涉及疾病、药物和医疗程序等多种医学主题。此外,数据集还提供了XML格式的额外注释,包括问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型等信息。这些注释有助于信息检索(IR)和自然语言处理(NLP)任务。数据集还将问题焦点分为三大类:疾病、药物或其他,其中MedlinePlus的集合仅关注疾病。

Medquad数据集是一个包含47,457个医学问答对的综合集合,这些问答对来自美国国立卫生研究院(NIH)的12个权威来源,涵盖癌症、糖尿病、罕见疾病等多个医学领域。数据集包含37种不同的问题类型,涉及疾病、药物和医疗程序等多种医学主题。此外,数据集还提供了XML格式的额外注释,包括问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型等信息。这些注释有助于信息检索(IR)和自然语言处理(NLP)任务。数据集还将问题焦点分为三大类:疾病、药物或其他,其中MedlinePlus的集合仅关注疾病。
提供机构:
Shekswess
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 大小: 10K<n<100K
  • 任务类别: 问答

数据集特征

  • 输入 (dtype: string)
  • 输出 (dtype: string)
  • 指令 (dtype: string)
  • 提示 (dtype: string)

数据集分割

  • 训练集
    • 大小: 48114257 字节
    • 示例数量: 16359

下载与数据集大小

  • 下载大小: 17948500 字节
  • 数据集大小: 48114257 字节

配置

  • 默认配置
    • 数据文件路径: data/train-*

标签

  • 医疗
AI搜集汇总
数据集介绍
main_image_url
构建方式
Shekswess/gemma_medquad_instruct_dataset 数据集的构建基于Medquad数据集,该数据集由47,457个医学问答对组成,来源于美国国家卫生研究院(NIH)的12个权威资源,涵盖癌症、糖尿病等多个医学领域。这些问答对涉及37种不同的问题类型,并附有XML格式的详细注释,包括问题类型、焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型。此外,问题焦点被分类为疾病、药物或其他,其中MedlinePlus部分仅关注疾病。
特点
该数据集的显著特点在于其广泛覆盖的医学领域和多样化的问答类型,为医学领域的信息检索和自然语言处理任务提供了丰富的资源。其详细的XML注释不仅增强了数据的可解释性,还为模型训练提供了额外的语义信息。此外,数据集的分类结构和唯一标识符的使用,使得数据在处理和分析时更加高效和精确。
使用方法
Shekswess/gemma_medquad_instruct_dataset 数据集适用于医学领域的问答系统开发和模型微调。用户可以通过加载数据集中的训练集进行模型训练,利用输入、输出、指令和提示等特征进行监督学习。数据集的详细注释和分类结构为模型提供了丰富的上下文信息,有助于提升模型的准确性和泛化能力。
背景与挑战
背景概述
在医学信息处理领域,准确且高效的问答系统对于提升医疗服务的质量和效率至关重要。Shekswess/gemma_medquad_instruct_dataset数据集基于Medquad数据集构建,旨在为Gemma大型语言模型(LLMs)提供指令监督微调。Medquad数据集由美国国家卫生研究院(NIH)的12个权威来源汇编而成,包含47,457对医学问答,涵盖37种不同的问题类型,涉及疾病、药物和医疗程序等多个医学主题。该数据集不仅提供了丰富的问答对,还通过XML文件提供了额外的注释,如问题类型、问题焦点、同义词、统一医学语言系统(UMLS)的唯一标识符(CUI)和语义类型,极大地促进了信息检索(IR)和自然语言处理(NLP)任务的发展。
当前挑战
尽管Shekswess/gemma_medquad_instruct_dataset数据集在医学问答领域具有显著的应用潜力,但其构建和应用过程中仍面临诸多挑战。首先,数据集的多样性和复杂性要求模型具备高度的泛化能力,以应对不同类型的医学问题。其次,数据集中的注释信息虽然丰富,但也增加了数据处理的复杂性,特别是在处理多源数据时,如何确保注释的一致性和准确性是一个重要问题。此外,医学领域的专业性和敏感性要求模型在微调过程中保持高度的准确性和可靠性,避免误导性信息的产生。最后,数据集的规模和结构也对其在实际应用中的性能提出了挑战,特别是在资源受限的环境下,如何高效地利用该数据集进行模型训练和优化,仍需进一步研究和探索。
常用场景
经典使用场景
在医学领域,Shekswess/gemma_medquad_instruct_dataset 数据集的经典使用场景主要集中在医学问答系统的构建与优化。该数据集通过提供丰富的医学问答对,涵盖了从疾病、药物到医疗程序的广泛主题,为研究人员和开发者提供了一个强大的资源库,用于训练和微调大型语言模型(LLMs),以实现更精准和全面的医学问答功能。
衍生相关工作
基于Shekswess/gemma_medquad_instruct_dataset 数据集,衍生了一系列经典工作,包括医学问答系统的改进、医学信息检索模型的优化以及医学文本分类和标注的研究。这些工作不仅推动了医学NLP领域的发展,还为其他相关领域的研究提供了宝贵的参考和借鉴,展示了该数据集在推动医学信息处理技术进步中的重要作用。
数据集最近研究
最新研究方向
在医学领域,Shekswess/gemma_medquad_instruct_dataset数据集的最新研究方向主要集中在利用大规模语言模型进行指令微调,以提升医学问答系统的准确性和实用性。该数据集基于Medquad,包含了47,457个医学问答对,涵盖了疾病、药物和医疗程序等多个领域。研究者们通过引入额外的XML注释,如问题类型、焦点、同义词和UMLS的CUI等,进一步增强了数据集的信息检索和自然语言处理能力。这些研究不仅推动了医学信息检索技术的发展,也为构建更加智能和高效的医学问答系统提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

OECD Employment and Labour Market Statistics

该数据集包含了经合组织(OECD)成员国的就业和劳动力市场统计数据,涵盖了就业率、失业率、劳动力参与率、工资水平、工作时间等多个方面的指标。数据按国家和时间序列提供,帮助分析和比较不同国家的劳动力市场状况。

stats.oecd.org 收录