five

Huatuo-26M|医疗问答数据集|医疗知识数据集

收藏
arXiv2023-05-02 更新2024-06-21 收录
医疗问答
医疗知识
下载链接:
https://github.com/FreedomIntelligence/Huatuo-26M
下载链接
链接失效反馈
资源简介:
Huatuo-26M是由香港中文大学(深圳)创建的大型中文医疗问答数据集,包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成,旨在纪念古代名医华佗。数据集内容涵盖广泛,包括常见疾病、慢性病及复杂疾病等,问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究,还旨在辅助患者和临床医生,通过提供丰富的医疗知识,支持模型在零样本学习和其他医疗问答数据集上的表现,以及作为预训练语料库提升现有预训练语言模型的性能。
提供机构:
香港中文大学(深圳)
创建时间:
2023-05-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
Huatuo-26M数据集通过多源数据整合构建,主要从在线医疗咨询网站、医学百科全书和医学知识库中自动提取问答对。经过文本清洗和数据去重处理,最终形成了包含2600万对问答的庞大数据集。这种多源数据的融合不仅丰富了数据集的多样性,也确保了数据的高质量和广泛覆盖。
使用方法
Huatuo-26M数据集可用于多种自然语言处理任务,包括但不限于问答系统、信息检索和生成模型。研究者可以利用该数据集进行模型预训练,以提升模型在医学领域的理解和生成能力。此外,数据集还可作为外部知识库,用于增强检索增强生成(RAG)模型的性能。通过在Huatuo-26M上的训练,模型能够在零样本或少样本的情况下,在其他医学问答数据集上展现出优异的迁移学习能力。
背景与挑战
背景概述
Huatuo-26M,作为迄今为止最大的中文医疗问答数据集,由深圳大数据研究院和香港中文大学(深圳)联合发布。该数据集包含了2600万对问答,旨在解决医疗领域中预训练语言模型(PLMs)应用的数据瓶颈问题。其核心研究问题是如何利用大规模的医疗问答数据提升模型的自然语言理解和生成能力,特别是在医疗领域的专业知识处理上。该数据集的发布不仅推动了医疗问答系统的研究,也为患者和临床医生提供了实用的工具,具有广泛的影响力。
当前挑战
Huatuo-26M数据集在构建和应用过程中面临多项挑战。首先,医疗领域的专业性和复杂性要求数据集必须包含高质量、准确的信息,而大规模数据的收集和清洗过程极为复杂。其次,现有的预训练语言模型在处理医疗问答任务时表现远低于预期,显示出在专业知识理解和生成上的不足。此外,数据集中可能存在的错误信息,由于规模庞大,难以通过人工逐一校验,这增加了数据使用的风险。最后,医疗问答系统的实际应用需要考虑个体差异和动态变化的医疗环境,这要求模型具备更高的灵活性和适应性。
常用场景
经典使用场景
Huatuo-26M数据集在医疗问答领域中被广泛用于训练和评估问答系统。其大规模的问答对数据为模型提供了丰富的医学知识,使得模型能够在零样本或少样本的情况下表现出色。此外,该数据集还被用于增强检索增强生成(RAG)模型的性能,通过提供外部知识库来提升生成文本的质量。
解决学术问题
Huatuo-26M数据集解决了医疗问答领域中数据稀缺的问题,为研究人员提供了大规模、高质量的中文医疗问答数据。这不仅推动了医疗问答系统的研究进展,还为预训练语言模型在医疗领域的应用提供了宝贵的资源。通过该数据集,研究人员能够更好地理解和处理医疗领域的复杂问题,从而提升模型的性能和可靠性。
实际应用
在实际应用中,Huatuo-26M数据集被用于开发智能医疗助手和在线问诊系统。这些系统能够根据患者的症状提供初步的医疗建议,帮助患者更好地理解和管理自己的健康状况。此外,该数据集还支持医疗教育平台的建设,为医学生和医生提供丰富的学习资源和实践案例。
数据集最近研究
最新研究方向
Huatuo-26M数据集在医学问答领域的前沿研究方向主要集中在利用大规模中文医学问答对进行模型预训练和微调,以提升医学领域的自然语言处理任务性能。研究者们通过在Huatuo-26M数据集上进行预训练,探索了其在零样本学习和迁移学习中的潜力,特别是在其他医学问答数据集上的表现。此外,该数据集还被用于增强检索增强生成(RAG)模型的外部知识库,以及作为预训练语言模型的继续训练语料,以提高模型在医学文本理解和生成任务中的表现。这些研究不仅推动了医学问答系统的技术进步,也为临床医生和患者提供了更准确和实用的信息支持。
相关研究论文
  • 1
    Huatuo-26M, a Large-scale Chinese Medical QA Dataset香港中文大学(深圳) · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录