Huatuo-26M

arXiv2023-05-02 更新2024-06-21 收录

下载链接：

https://github.com/FreedomIntelligence/Huatuo-26M

下载链接

链接失效反馈

资源简介：

Huatuo-26M是由香港中文大学（深圳）创建的大型中文医疗问答数据集，包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成，旨在纪念古代名医华佗。数据集内容涵盖广泛，包括常见疾病、慢性病及复杂疾病等，问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究，还旨在辅助患者和临床医生，通过提供丰富的医疗知识，支持模型在零样本学习和其他医疗问答数据集上的表现，以及作为预训练语料库提升现有预训练语言模型的性能。

Huatuo-26M is a large-scale Chinese medical question answering dataset developed by The Chinese University of Hong Kong, Shenzhen, containing 26 million question-answer pairs. This dataset is constructed by collecting data from online medical consultation websites, medical encyclopedias and medical knowledge bases, and is designed to commemorate the ancient renowned Chinese physician Hua Tuo. The dataset covers a wide range of medical topics, including common diseases, chronic diseases, complex diseases and other related contents, with its question-answering format closely mirroring real-world medical diagnostic scenarios. Huatuo-26M not only facilitates medical research, but also aims to assist both patients and clinicians. By providing abundant medical knowledge, it helps improve the performance of models on zero-shot learning tasks and other medical question answering datasets, and serves as a high-quality pre-training corpus to enhance the performance of existing pre-trained language models.

提供机构：

香港中文大学（深圳）

创建时间：

2023-05-02

搜集汇总

数据集介绍

构建方式

Huatuo-26M数据集通过多源数据整合构建，主要从在线医疗咨询网站、医学百科全书和医学知识库中自动提取问答对。经过文本清洗和数据去重处理，最终形成了包含2600万对问答的庞大数据集。这种多源数据的融合不仅丰富了数据集的多样性，也确保了数据的高质量和广泛覆盖。

使用方法

Huatuo-26M数据集可用于多种自然语言处理任务，包括但不限于问答系统、信息检索和生成模型。研究者可以利用该数据集进行模型预训练，以提升模型在医学领域的理解和生成能力。此外，数据集还可作为外部知识库，用于增强检索增强生成（RAG）模型的性能。通过在Huatuo-26M上的训练，模型能够在零样本或少样本的情况下，在其他医学问答数据集上展现出优异的迁移学习能力。

背景与挑战

背景概述

Huatuo-26M，作为迄今为止最大的中文医疗问答数据集，由深圳大数据研究院和香港中文大学（深圳）联合发布。该数据集包含了2600万对问答，旨在解决医疗领域中预训练语言模型（PLMs）应用的数据瓶颈问题。其核心研究问题是如何利用大规模的医疗问答数据提升模型的自然语言理解和生成能力，特别是在医疗领域的专业知识处理上。该数据集的发布不仅推动了医疗问答系统的研究，也为患者和临床医生提供了实用的工具，具有广泛的影响力。

当前挑战

Huatuo-26M数据集在构建和应用过程中面临多项挑战。首先，医疗领域的专业性和复杂性要求数据集必须包含高质量、准确的信息，而大规模数据的收集和清洗过程极为复杂。其次，现有的预训练语言模型在处理医疗问答任务时表现远低于预期，显示出在专业知识理解和生成上的不足。此外，数据集中可能存在的错误信息，由于规模庞大，难以通过人工逐一校验，这增加了数据使用的风险。最后，医疗问答系统的实际应用需要考虑个体差异和动态变化的医疗环境，这要求模型具备更高的灵活性和适应性。

常用场景

经典使用场景

Huatuo-26M数据集在医疗问答领域中被广泛用于训练和评估问答系统。其大规模的问答对数据为模型提供了丰富的医学知识，使得模型能够在零样本或少样本的情况下表现出色。此外，该数据集还被用于增强检索增强生成（RAG）模型的性能，通过提供外部知识库来提升生成文本的质量。

解决学术问题

Huatuo-26M数据集解决了医疗问答领域中数据稀缺的问题，为研究人员提供了大规模、高质量的中文医疗问答数据。这不仅推动了医疗问答系统的研究进展，还为预训练语言模型在医疗领域的应用提供了宝贵的资源。通过该数据集，研究人员能够更好地理解和处理医疗领域的复杂问题，从而提升模型的性能和可靠性。

实际应用

在实际应用中，Huatuo-26M数据集被用于开发智能医疗助手和在线问诊系统。这些系统能够根据患者的症状提供初步的医疗建议，帮助患者更好地理解和管理自己的健康状况。此外，该数据集还支持医疗教育平台的建设，为医学生和医生提供丰富的学习资源和实践案例。

数据集最近研究