five

ruslanmv/ai-medical-dataset

收藏
Hugging Face2024-05-05 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ruslanmv/ai-medical-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
AI Medical General Dataset是一个实验性数据集,旨在为医疗领域的聊天机器人提供强大的医学知识基础。该数据集包含约2700万行数据,专门用于训练医疗领域的大型语言模型(LLMs)。数据集主要来源于ClinicalTrials、EMEA和PubMed,涵盖了广泛的医学信息,确保聊天机器人能够理解和回应各种医学查询和主题。数据集以Parquet格式存储,包含两列:`question`(医学问题)和`context`(与问题相关的上下文),提供了丰富的医学信息用于训练和微调语言模型。

AI Medical General Dataset is an experimental dataset designed to provide a robust medical knowledge foundation for medical-domain chatbots. This dataset contains approximately 27 million rows of data, specifically intended for training large language models (LLMs) in the medical field. The dataset is primarily sourced from ClinicalTrials, EMEA, and PubMed, covering a wide range of medical information to ensure chatbots can comprehend and respond to various medical queries and topics. Stored in Parquet format, the dataset includes two columns: `question` (medical questions) and `context` (contexts related to the questions), providing abundant medical information for training and fine-tuning language models.
提供机构:
ruslanmv
原始信息汇总

AI Medical Dataset 概述

简介

AI Medical General Dataset 是一个实验性数据集,旨在构建一个具有强大医学知识基础的通用聊天机器人。该数据集提供了一个大型医学数据语料库,包含约2700万行数据,专门用于训练医学领域的大型语言模型(LLMs)。

数据来源

数据集主要由以下三个来源组成:

  • ClinicalTrials: 127.4M 词
  • EMEA: 12M 词
  • PubMed: 968.4M 词

这些来源提供了多样化的医学信息,确保聊天机器人能够理解和回应广泛的医学查询和主题。

数据集统计

  • 总行数: 27,000,000
  • 总词数: 约 1,107.8M

数据集结构

数据集以 Parquet 格式存储,包含两列:

  • question: 医学问题
  • context: 与问题相关的上下文

数据集包含约2700万个问题及其对应的上下文,为训练和微调语言模型提供了丰富的医学信息源。

许可证

AI Medical General Dataset 使用 CC-BY 4.0 许可证

引用

如果您在研究中使用此数据集,请按以下格式引用:

@dataset{ai_medical_dataset, title = {AI Medical Dataset}, author = {Ruslan Magana Vsevolodovna}, year = {2023}, url = {https://github.com/ruslanmv/ai-medical-chatbot}, }

致谢

我们感谢原始数据来源的贡献:ClinicalTrials、EMEA 和 PubMed。

联系方式

如有任何问题、问题或反馈,请随时在此仓库中打开一个问题或通过 contact@ruslanmv.com 联系我们。您也可以访问我们的网站 ruslannmv.com 获取更多信息。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作