shibing624/medical|医疗，偏好数据集数据集

hugging_face2024-06-16 更新2024-03-04 收录

医疗，偏好数据集

下载链接：

https://hf-mirror.com/datasets/shibing624/medical

下载链接

链接失效反馈

资源简介：

medical是一个中文医疗数据集，包含预训练、微调和奖励三个部分，用于医疗领域大模型训练。预训练部分使用医疗百科和教材数据，微调部分使用医疗对话和问诊数据，奖励部分用于评估模型回答的质量。数据集支持中文医疗对话模型的训练，数据主要为中文。

提供机构：

shibing624

原始信息汇总

数据集概述

基本信息

名称: medical
语言: 中文、英文
标签: text-generation
任务类别: text-generation
大小: 1M<n<10M
许可证: Apache-2.0

数据集描述

用途: 医疗领域大模型训练
数据来源:
- 监督微调数据集来自中文医疗对话数据集和在线医疗百科。
- 二次预训练数据集来自医疗教材和医疗百科数据。
- 奖励模型数据集来自中文医疗对话数据集。

数据集结构

预训练数据集:
- 字段: text
指令微调数据集:
- 字段: instruction, input, output
奖励模型数据集:
- 字段: question, response_chosen, response_rejected

数据集细分

预训练数据集:
- train_encyclopedia.json: 361420条
- medical_book_zh.json: 8475条
指令微调数据集:
- train_zh_0.json: 1949972条
- train_en_1.json: 116617条
奖励模型数据集:
- train.json: 3800条

许可证信息

许可证: Apache 2.0

引用信息

主要参考来源包括医疗对话数据集和医疗百科数据集的GitHub和Hugging Face链接。

AI搜集汇总

数据集介绍

构建方式

该数据集通过整合多源医疗数据构建而成，包括医疗百科数据、医疗教材文本、中文医疗对话数据以及英文医疗问诊对话数据。预训练数据集包含36万条医疗百科问答数据和8475条医疗教材文本，经过处理后用于预训练模型。监督微调数据集则整合了195万条中文医疗对话数据和11万条英文医疗问诊对话数据，用于模型的微调和强化学习。奖励模型数据集包含4000条中文医疗对话数据，用于评估模型生成回答的质量。

使用方法

该数据集适用于医疗领域大模型的训练和微调，可用于预训练阶段注入医疗知识，监督微调阶段提升模型在医疗对话中的表现，以及奖励模型阶段评估和优化模型生成回答的质量。使用时，可根据具体任务需求选择相应的数据集子集，如预训练数据集用于初始模型训练，监督微调数据集用于模型微调，奖励模型数据集用于模型评估和优化。

背景与挑战

背景概述

中文医疗数据集（shibing624/medical）是由shibing624整理并上传的，旨在为医疗领域的大模型训练提供丰富的数据资源。该数据集包含了多个子集，如预训练数据集、指令微调数据集和奖励模型数据集，涵盖了从医疗百科、医疗对话到医疗教材等多种数据来源。这些数据不仅有助于提升医疗领域自然语言处理模型的性能，还为研究人员提供了一个标准化的数据集，以评估和改进医疗对话系统的质量。

当前挑战

尽管中文医疗数据集提供了丰富的数据资源，但在构建和应用过程中仍面临诸多挑战。首先，数据的质量和多样性是关键问题，尤其是在医疗对话数据中，确保信息的准确性和专业性至关重要。其次，数据集的规模和分布不均可能导致模型训练时的偏差，影响模型的泛化能力。此外，隐私保护和数据安全也是不可忽视的挑战，特别是在处理涉及个人健康信息的医疗数据时。

常用场景

经典使用场景

在医疗领域，shibing624/medical数据集的经典使用场景主要集中在医疗对话模型的训练与优化。该数据集通过丰富的中文医疗对话数据，为模型提供了大量的真实医疗问答样本，从而使得模型能够更准确地理解和生成医疗相关的对话内容。此外，数据集中的预训练数据和奖励模型数据也为模型的进一步微调和优化提供了坚实的基础。

解决学术问题

该数据集解决了医疗领域中对话生成模型训练数据稀缺的问题。通过整合多源的医疗对话数据，shibing624/medical数据集为学术界提供了一个高质量、大规模的训练资源，有助于推动医疗对话生成模型的研究进展。此外，数据集的多样性和丰富性也为研究者提供了探索不同医疗场景下模型表现的机会，从而推动了医疗对话系统的智能化发展。

实际应用

在实际应用中，shibing624/medical数据集主要用于开发和优化智能医疗助手、在线问诊系统等应用。通过使用该数据集训练的模型，可以显著提升医疗对话系统的准确性和用户满意度，从而在实际医疗场景中提供更为精准和高效的医疗服务。此外，数据集中的奖励模型数据也为模型的持续优化提供了方向，确保模型在实际应用中的表现不断提升。

数据集最近研究

最新研究方向

在医疗领域，shibing624/medical数据集的最新研究方向主要集中在利用大规模预训练语言模型（LLMs）进行医疗对话系统的微调和优化。通过整合多源医疗数据，包括中文医疗对话、医疗百科和知识图谱，该数据集为构建更为精准和智能的医疗问答系统提供了丰富的训练资源。研究者们正致力于通过监督微调（SFT）和强化学习从人类反馈（RLHF）等技术，提升模型的医疗知识注入能力和对话生成质量。此外，奖励模型的引入进一步优化了模型对医疗问题回答的准确性和专业性，推动了医疗AI在实际应用中的性能提升。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

BANTH

BANTH数据集是由Penta Global Limited和Islamic University of Technology合作创建的，专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350条样本，主要来源于YouTube评论，涵盖新闻与政治、人物与博客、娱乐等多个类别。数据集的创建过程包括数据抓取、过滤、清洗和多轮人工标注与验证，确保了数据的高质量和准确性。BANTH数据集的应用领域主要集中在多标签仇恨言论检测，旨在解决低资源语言中仇恨言论自动检测的挑战，并为未来的跨语言和多标签分类研究奠定基础。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集，分为102个类别，共102种花卉，其中每个类别包含40到258幅图像。该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录