HuatuoGPT2_Pretrain

Name: HuatuoGPT2_Pretrain
Creator: FreedomAI
Published: 2024-06-24 22:48:13
License: 暂无描述

Hugging Face2024-06-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/FreedomIntelligence/HuatuoGPT2_Pretrain

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为HuatuoGPT2模型的监督微调提供的指令集，所有响应由GPT-4生成。数据集包含14万条记录，涵盖医疗书籍、百科和文献的中英文内容，适用于医疗和生物领域的问答和文本生成任务。

This dataset is an instruction set developed for the supervised fine-tuning of the HuatuoGPT2 model, with all responses generated by GPT-4. It contains 140,000 records covering both Chinese and English content from medical books, encyclopedias, and academic literature, and is applicable to question answering and text generation tasks in the medical and biological domains.

提供机构：

FreedomAI

创建时间：

2024-06-24

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别:
- 问答
- 文本生成
语言: 中文
标签:
- 医学
- 生物学
数据量: 5M<n<6M

数据集特征

特征:
- id: 字符串类型
- conversations: 列表类型，包含以下字段:
  - from: 字符串类型
  - value: 字符串类型

配置信息

配置名称: Meidcal_Encyclopedia_en
- 数据文件: data/HuatuoGPT2_Pretrain_Meidcal_Encyclopedia_en.json
配置名称: Meidcal_Encyclopedia_cn
- 数据文件: data/HuatuoGPT2_Pretrain_Meidcal_Encyclopedia_cn.json
配置名称: Meidcal_Books_en
- 数据文件: data/HuatuoGPT2_Pretrain_Meidcal_Books_en.json
配置名称: Meidcal_Literature_en
- 数据文件: data/HuatuoGPT2_Pretrain_Meidcal_Literature_en.json
配置名称: Meidcal_Literature_cn
- 数据文件: data/HuatuoGPT2_Pretrain_Meidcal_Literature_cn.json
配置名称: Meidcal_Web_en
- 数据文件: data/HuatuoGPT2_Pretrain_Meidcal_Web_Corpus_en.json
配置名称: Meidcal_Web_cn
- 数据文件: data/HuatuoGPT2_Pretrain_Meidcal_Web_Corpus_cn.json

数据量详情

数据来源: Medical_Web_Corpus_cn
- 数据量: 640,621
数据来源: Medical_Web_Corpus_en
- 数据量: 394,490
数据来源: Medical_Literature_cn
- 数据量: 177,261
数据来源: Medical_Literature_en
- 数据量: 878,241
数据来源: Medical_Encyclopedia_cn
- 数据量: 411,183
数据来源: Medical_Encyclopedia_en
- 数据量: 147,059
数据来源: Medical_Books_cn
- 数据量: 1,835,931
数据来源: Medical_Books_en
- 数据量: 801,522
总计: 5,286,308

搜集汇总

数据集介绍

构建方式

HuatuoGPT2_Pretrain数据集的构建基于大规模的医学语料库，涵盖了超过520万条医学相关数据。这些数据来源于多个权威的医学资源，包括医学百科全书、医学书籍、医学文献以及网络医学语料。数据通过ChatGPT进行预处理和生成，确保了语料的高质量和多样性。数据集以对话形式组织，每条数据包含对话的发起者和内容，便于模型进行问答和文本生成任务的训练。

特点

该数据集的特点在于其广泛的医学知识覆盖和多样化的数据来源。数据集不仅包含中文和英文的医学内容，还涵盖了从基础医学知识到前沿医学研究的多个领域。数据以对话形式呈现，模拟了真实的医患交流场景，有助于模型在医学领域的自然语言处理任务中表现出色。此外，数据集的规模庞大，确保了模型在训练过程中能够接触到丰富的医学知识。

使用方法

HuatuoGPT2_Pretrain数据集主要用于医学领域的自然语言处理任务，如问答系统和文本生成。用户可以通过加载数据集中的不同配置文件，选择特定语言或特定类型的医学数据进行训练。数据集支持多种格式的输入输出，便于与现有的深度学习框架集成。通过使用该数据集，研究人员可以训练出具有强大医学知识背景的语言模型，应用于临床决策支持、医学教育等多个场景。

背景与挑战

背景概述

HuatuoGPT2_Pretrain数据集由FreedomIntelligence团队于2023年开发，旨在通过大规模医学语料库的训练，推动语言模型在医学领域的应用。该数据集包含了超过520万条医学相关的对话和文本，涵盖了医学百科全书、医学书籍、医学文献以及网络医学资源等多种来源。其核心研究问题在于如何通过一阶段训练实现语言模型的医学适应，从而提升模型在医学问答和文本生成任务中的表现。该数据集的发布为医学自然语言处理领域提供了重要的资源支持，推动了医学知识在人工智能中的集成与应用。

当前挑战

HuatuoGPT2_Pretrain数据集在构建和应用中面临多重挑战。首先，医学领域的专业性和复杂性要求数据具有高度的准确性和权威性，如何从海量医学资源中筛选和整理高质量数据成为关键问题。其次，医学文本的多语言特性（如中英文混合）增加了数据处理的难度，尤其是在语义对齐和跨语言知识迁移方面。此外，医学数据的隐私性和敏感性也对数据集的公开和使用提出了更高的伦理和法律要求。在模型训练阶段，如何有效融合多源异构数据并保持医学知识的连贯性，是进一步提升模型性能的核心挑战。

常用场景

经典使用场景

HuatuoGPT2_Pretrain数据集在医学领域的自然语言处理任务中展现了其独特的价值。该数据集通过整合大量的医学百科全书、文献、书籍及网络语料，为医学问答系统和文本生成模型提供了丰富的训练素材。特别是在医学知识问答场景中，模型能够基于海量的医学数据进行精准的答案生成，显著提升了问答系统的准确性和可靠性。

衍生相关工作

基于HuatuoGPT2_Pretrain数据集，衍生了一系列经典的研究工作。例如，HuatuoGPT-II模型通过该数据集实现了医学领域的一站式预训练，显著提升了模型在医学问答和文本生成任务中的表现。此外，该数据集还启发了其他研究团队开发类似的医学语言模型，如基于多语言医学语料的预训练模型，进一步推动了医学自然语言处理领域的技术创新。

数据集最近研究