five

ticoAg/shibing624-medical-pretrain

收藏
Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/shibing624-medical-pretrain
下载链接
链接失效反馈
官方服务:
资源简介:
medical是一个中文医疗数据集,主要用于医疗领域的大模型训练。数据集包含三个主要部分:预训练数据集(pretrain)、指令微调数据集(finetune)和奖励模型数据集(reward)。预训练数据集包括医疗百科和医疗教材的文本数据,用于预训练注入医疗知识。指令微调数据集包括中文和英文的医疗对话数据,用于监督微调。奖励模型数据集包括中文医疗对话数据,用于训练奖励模型。

The medical dataset is a Chinese medical corpus primarily designed for large language model (LLM) training in the medical domain. It comprises three core components: the pretraining dataset (pretrain), the instruction fine-tuning dataset (finetune), and the reward model dataset (reward). The pretraining dataset contains textual data from medical encyclopedias and medical textbooks, which is used to infuse medical knowledge during the pre-training stage. The instruction fine-tuning dataset includes Chinese and English medical dialogue data for supervised fine-tuning. The reward model dataset consists of Chinese medical dialogue data dedicated to training the reward model.
提供机构:
ticoAg
原始信息汇总

数据集卡片 for medical

数据集描述

medical 是一个中文医疗数据集,可用于医疗领域大模型训练。

数据集结构

目录结构

tree medical |-- finetune # 监督微调数据集,可用于SFT和RLHF | |-- test_en_1.json | |-- test_zh_0.json | |-- train_en_1.json | |-- train_zh_0.json | |-- valid_en_1.json | -- valid_zh_0.json |-- medical.py # hf dataset 数据展示用 |-- pretrain # 二次预训练数据集 | |-- medical_book_zh.json | |-- test_encyclopedia.json | |-- train_encyclopedia.json | -- valid_encyclopedia.json |-- README.md -- reward # 奖励模型数据集 |-- test.json |-- train.json -- valid.json

数据实例

预训练数据集 pretrain

  • train_encyclopedia.json: 共36万条,来自医疗百科数据,拼接 questions 和 answers,形成 text 文本字段,语句通顺,用于预训练注入医疗知识。
  • medical_book_zh.json: 共8475条,来自医疗教材的文本数据,只对长段落切分为2048字的小段落。

指令微调数据集 finetune

  • train_zh_0.json: 共195万条,来自中文医疗对话数据集的六个科室医疗问诊数据、在线医疗百科和医疗知识图谱。
  • train_en_1.json: 共11万条,来自英文医疗问诊对话数据,合并了HealthCareMagic-100k、GenMedGPT-5k 数据集。

奖励模型数据集 reward

  • train.json: 共4000条,问题来自中文医疗对话数据集的随机4000条提问,response_chosen来自该数据集的医生答复,response_rejected来自本草模型的答复。

数据字段

预训练数据集 pretrain

  • text: 文本

指令微调数据集 finetune

  • instruction: 指令
  • input: 问题(可为空)
  • output: 答复

奖励模型数据集 reward

  • question: 问题
  • response_chosen: 优质回答
  • response_rejected: 低质回答

数据分割

wc -l medical// 500 medical/finetune/test_en_1.json 500 medical/finetune/test_zh_0.json 116617 medical/finetune/train_en_1.json 1949972 medical/finetune/train_zh_0.json 500 medical/finetune/valid_en_1.json 500 medical/finetune/valid_zh_0.json 8475 medical/pretrain/medical_book_zh.json 500 medical/pretrain/test_encyclopedia.json 361420 medical/pretrain/train_encyclopedia.json 500 medical/pretrain/valid_encyclopedia.json 100 medical/reward/test.json 3800 medical/reward/train.json 100 medical/reward/valid.json 2443484 total

许可信息

该数据集在 Apache 2.0 许可下可用。

引用信息

  • https://github.com/Toyhom/Chinese-medical-dialogue-data
  • https://github.com/FreedomIntelligence/Huatuo-26M/blob/main/README_zh-CN.md
  • https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa
  • https://huggingface.co/datasets/FreedomIntelligence/huatuo_knowledge_graph_qa
  • https://github.com/Kent0n-Li/ChatDoctor

贡献

shibing624 整理并上传

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要分为预训练数据集、指令微调数据集和奖励模型数据集三个部分。预训练数据集通过整合医疗百科数据和医疗教材文本数据,为模型注入医疗知识;指令微调数据集则汇集了中文和英文的医疗对话数据,以及医疗知识图谱,以监督微调的方式提升模型的医疗对话能力;奖励模型数据集则通过选取中文医疗对话数据集中的问题和答案,辅以本草模型的回答,构建了奖励模型训练所需的数据集。
使用方法
使用该数据集时,研究者可以根据不同的训练阶段选择对应的数据集。预训练阶段可以使用pretrain目录下的数据,微调阶段可以使用finetune目录下的数据,而奖励模型训练则可以使用reward目录下的数据。每个数据集都包含了必要的字段,如文本、指令、问题和答案等,以支持模型的有效训练和评估。
背景与挑战
背景概述
在当今医疗信息化迅速发展的背景下,医疗文本数据的处理与分析显得尤为重要。该数据集‘ticoAg/shibing624-medical-pretrain’的创建,旨在为医疗领域的大模型训练提供高质量的数据支持。由研究者shibing624整理并上传于HuggingFace平台,该数据集汇集了自2019年以来的医疗文本数据,包括医疗对话、医疗百科和医疗知识图谱等。数据集的核心研究问题是提高医疗文本的生成质量和准确度,对相关领域如医疗信息处理、自然语言理解等产生了重要影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1)如何确保所收集的医疗数据的准确性和多样性,以解决医疗领域问题;2)数据集的规模和质量平衡,既要保证数据集的丰富性,又要确保其训练效率;3)在数据预处理和标注过程中,如何有效整合医疗专业知识,以保证数据集的可用性和可靠性。
常用场景
经典使用场景
在医疗领域,该数据集被广泛用于训练和微调预训练语言模型,以实现中文医疗对话的功能。通过对医疗文本的深度学习,模型能够理解并生成专业的医疗建议和解答。
解决学术问题
该数据集有效解决了医疗自然语言处理中的多个学术研究问题,如医学术语的识别、医疗对话的生成和理解等,为医疗信息提取和分析提供了丰富的语料资源。
实际应用
实际应用中,基于该数据集训练的模型能够辅助医生进行病情诊断、提供治疗方案,以及为患者提供个性化的健康咨询,大大提高了医疗服务效率和质量。
数据集最近研究
最新研究方向
在中文医疗数据集领域,当前研究集中于利用大规模医疗文本数据对语言模型进行预训练和微调,以提升医疗对话系统的生成质量和准确度。该数据集通过整合医疗百科、教材、对话记录等丰富资源,为模型提供了深厚的知识基础。近期研究不仅关注于模型对医疗知识的理解和生成,还涉及到奖励模型的设计,以优化模型生成回复的偏好。这些研究对于提高医疗问诊的自动化水平、辅助医生诊断和治疗具有重要意义,同时也有助于推动医疗信息技术的智能化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作