FreedomIntelligence/HuatuoGPT2-Pretraining-Instruction

Name: FreedomIntelligence/HuatuoGPT2-Pretraining-Instruction
Creator: FreedomIntelligence
Published: 2024-06-25 08:04:07
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/FreedomIntelligence/HuatuoGPT2-Pretraining-Instruction

下载链接

链接失效反馈

官方服务：

资源简介：

HuatuoGPT2预训练数据集是一个包含520万条医学语料的数据集，主要用于问答和文本生成任务，涉及医学和生物学领域。数据集包含中文和英文数据，数据量在500万到600万之间。数据集的特征包括id和conversations，其中conversations包含from和value两个字段。数据集的配置文件包括多个医学相关的数据源，如医学百科全书、医学书籍、医学文献和医学网络语料库。数据量表格详细列出了每个数据源的数据量，总数据量为5,286,308条。

提供机构：

FreedomIntelligence

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 问答
- 文本生成
语言:
- 中文
标签:
- 医学
- 生物学
数据规模: 5M < n < 6M

数据集结构

特征:
- id: 字符串类型
- conversations: 列表类型
  - from: 字符串类型
  - value: 字符串类型

配置信息

Meidcal_Encyclopedia_en: 数据文件 data/HuatuoGPT2_Pretrain_Meidcal_Encyclopedia_en.json
Meidcal_Encyclopedia_cn: 数据文件 data/HuatuoGPT2_Pretrain_Meidcal_Encyclopedia_cn.json
Meidcal_Books_en: 数据文件 data/HuatuoGPT2_Pretrain_Meidcal_Books_en.json
Meidcal_Literature_en: 数据文件 data/HuatuoGPT2_Pretrain_Meidcal_Literature_en.json
Meidcal_Literature_cn: 数据文件 data/HuatuoGPT2_Pretrain_Meidcal_Literature_cn.json
Meidcal_Web_en: 数据文件 data/HuatuoGPT2_Pretrain_Meidcal_Web_Corpus_en.json
Meidcal_Web_cn: 数据文件 data/HuatuoGPT2_Pretrain_Meidcal_Web_Corpus_cn.json

数据量

Medical_Web_Corpus_cn: 640,621
Medical_Web_Corpus_en: 394,490
Medical_Literature_cn: 177,261
Medical_Literature_en: 878,241
Medical_Encyclopedia_cn: 411,183
Medical_Encyclopedia_en: 147,059
Medical_Books_cn: 1,835,931
Medical_Books_en: 801,522
总计: 5,286,308

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，构建高质量数据集是推动模型精准理解专业知识的基石。HuatuoGPT2-Pretraining-Instruction数据集通过整合多元医学语料，采用ChatGPT生成指令，系统性地汇集了超过520万条中英文医学文本。其构建过程涵盖医学百科全书、专业书籍、学术文献及网络语料，经结构化处理形成对话格式，每条数据均包含标识符与多轮对话内容，确保了知识覆盖的广度与深度，为模型的一阶段医学适应提供了坚实基础。

使用方法

为充分发挥数据集的医学知识价值，研究者可将其用于大规模语言模型的预训练或微调阶段。通过加载HuggingFace平台提供的多个配置，如Medical_Encyclopedia_cn或Medical_Literature_en，用户能针对特定语言或医学子领域定向训练模型。数据以标准JSON格式存储，可直接集成至主流深度学习框架，支持模型在诊断辅助、医学教育等场景中生成准确、连贯的响应，推动人工智能在医疗健康领域的创新应用。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域，高质量医学语言模型的构建一直是研究热点。HuatuoGPT2-Pretraining-Instruction数据集由FreedomIntelligence团队于2023年发布，旨在通过大规模医学语料的指令微调，推动大型语言模型在医疗场景下的专业化适应。该数据集整合了医学百科全书、专业书籍、学术文献及网络语料，涵盖中英双语，总量超过520万条，其核心研究问题聚焦于如何高效地将广泛医学知识注入模型，实现单阶段医学适应，从而提升模型在问答与文本生成任务中的准确性与可靠性，对智慧医疗与临床辅助决策系统的发展具有显著影响力。

当前挑战

该数据集致力于解决医学自然语言处理中知识密集与专业性强的核心挑战，具体包括医学术语的精确理解、临床推理的逻辑一致性以及多语言医学知识的对齐与融合。在构建过程中，团队面临数据质量控制的严峻考验，需从异构来源中筛选并清洗噪声数据，确保语料的权威性与时效性；同时，指令的生成依赖ChatGPT，如何保持生成内容的医学准确性并避免幻觉成为关键难题；此外，中英双语数据的平衡与知识表示的统一性也对数据集的构建提出了更高要求。

常用场景

经典使用场景

在医学自然语言处理领域，HuatuoGPT2-Pretraining-Instruction数据集为大规模语言模型的医学适应提供了关键支持。该数据集通过整合超过520万条医学语料，包括医学百科全书、专业书籍、学术文献及网络资源，构建了多语言、多来源的指令微调数据。其经典使用场景在于为模型提供结构化的医学知识对话样本，使模型能够学习如何基于医学背景生成准确、连贯的问答内容，从而在医学问答、诊断辅助等任务中展现出专业性能。

解决学术问题

该数据集有效解决了医学领域大型语言模型训练中数据稀缺与知识整合的难题。通过利用ChatGPT生成的指令数据，它实现了医学专业知识与通用语言能力的深度融合，推动了模型在医学文本理解、生成任务上的性能提升。其意义在于为医学人工智能研究提供了高质量、大规模的训练资源，促进了模型在医学推理、知识检索等学术问题上的突破，为后续研究奠定了数据基础。

实际应用

在实际应用中，该数据集支撑的模型可广泛应用于医疗健康场景。例如，在智能医疗咨询系统中，模型能够基于医学知识库提供初步的症状分析与健康建议；在医学教育领域，它可作为辅助工具帮助医学生理解复杂概念；此外，在临床文档自动化生成、医学文献摘要等任务中，模型也能提升工作效率，减轻医护人员的文本处理负担。

数据集最近研究