health360/Healix-V1

Name: health360/Healix-V1
Creator: health360
Published: 2023-07-19 15:16:02
License: 暂无描述

Hugging Face2023-07-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/health360/Healix-V1

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: odc-by dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 427613608 num_examples: 796239 download_size: 213902701 dataset_size: 427613608 language: - en tags: - biology - medical size_categories: - 100K<n<1M --- # Healix-V1 Dataset ## Description Healix-V1 is a rich and diverse dataset consisting of 809k Question-Answer pairs within the medical domain. This dataset has been meticulously curated to fuel research initiatives in the areas of medical language understanding, medical dialogue systems, and knowledge extraction. Healix-V1 serves as a valuable resource for developing and improving machine learning models for healthcare applications, enabling them to understand and generate human-like responses in medical context The dataset follows the format used in ALPACA model fine-tuning: ```plaintext ### Input: Question ### Response: Answer ## Data Sources The dataset has been compiled from a variety of valuable and authoritative sources, each contributing different kinds of medical question-answer pairs: 1. **Medical books**: 426,241 QA pairs - These pairs are derived from an array of reputable medical books. The questions were extracted and provided as prompts to GPT-3.5, which in turn generated the corresponding answers. 2. **[jianghc/medical_chatbot](URL)**: 46,867 QA pairs - This is a dataset derived from a medical chatbot project. 3. **The Medical Question and Answering dataset(MQuAD)**: 23,802 QA pairs - MQuAD is a medical dataset specifically designed for the task of question answering. 4. **PubMed**: 1,000 QA pairs - These are pairs extracted from the extensive library of medical articles on PubMed. 5. **GenMedGPT**: 5,000 QA pairs - Derived from the GenMedGPT project aimed at generating medical language. 6. **iCliniq**: 7,321 QA pairs - iCliniq is a platform where users ask health-related questions which are answered by certified doctors. 7. **HealthCareMagic**: 100,000 QA pairs - HealthCareMagic is an interactive health platform with a vast amount of user-generated medical QAs. 8. **medical_meadow_wikidoc**: 10,000 QA pairs - These pairs are extracted from WikiDoc, a free medical textbook. 9. **medical_meadow_wikidoc_medical_flashcards**: 33,955 QA pairs - Medical flashcards provide concise medical information in a Q&A format. 10. **MedQA-USMLE-4-options**: 10,178 QA pairs - These are QAs similar to the format of the USMLE exam for medical licensing in the U.S. ## Potential Applications Healix-V1 can serve a multitude of purposes such as: - Training AI models for medical chatbots - Developing advanced search engines for medical databases - Creating tutoring systems for medical students - Enhancing automated patient assistance systems - Helping in developing systems for medical examination preparation ## Data Length Distribution - (0.0, 256.0]: 96.724181% - (256.0, 512.0]: 2.903792% - (512.0, 768.0]: 0.299476% - (768.0, 1024.0]: 0.050675% - (1024.0, 2048.0]: 0.018910% ## Metadata - **License:** ODC-BY - **Language:** English - **Tags:** Biology, Medical - **Size Categories:** 100K<n<1M ## Dataset Info - **Features:** - name: text - dtype: string - **Splits:** - name: train - num_bytes: 419605911 - num_examples: 798902 - **Download Size:** 209261302 bytes - **Dataset Size:** 419605911 bytes

--- 许可证：ODC-BY 数据集信息：特征： - 名称：text 数据类型：字符串划分： - 名称：train 字节数：427613608 样本数：796239 下载大小：213902701字节数据集大小：427613608字节语言： - 英语标签： - 生物学 - 医学规模类别： - 100K<n<1M --- # Healix-V1 数据集 ## 数据集描述 Healix-V1是一个丰富多元的数据集，包含80.9万条医学领域问答对。该数据集经细致甄选构建，可为医学语言理解、医疗对话系统、知识抽取等领域的研究工作提供支撑。Healix-V1可作为开发与优化面向医疗健康应用的机器学习模型的宝贵资源，助力模型理解医疗场景并生成类人化应答。该数据集采用ALPACA模型（ALPACA）微调格式，格式如下： plaintext ### Input: Question ### Response: Answer ## 数据来源本数据集整合自多个权威且极具价值的数据源，各数据源贡献了不同类型的医学问答对： 1. **医学书籍**：426241条问答对——此类问答对源自多本权威医学著作。研究人员先提取其中的问题作为提示词输入至GPT-3.5，由其生成对应的答案。 2. **[jianghc/medical_chatbot](URL)**：46867条问答对——该数据集源自一个医疗聊天机器人项目。 3. **医学问答数据集（MQuAD）**：23802条问答对——MQuAD是专为问答任务设计的医学数据集。 4. **PubMed**：1000条问答对——此类问答对从PubMed庞大的医学文献库中提取得到。 5. **GenMedGPT**：5000条问答对——源自旨在生成医学语言的GenMedGPT项目。 6. **iCliniq**：7321条问答对——iCliniq是一个用户可提出健康相关问题并由持证医生作答的平台。 7. **HealthCareMagic**：100000条问答对——HealthCareMagic是一个交互式健康平台，拥有海量用户生成的医学问答内容。 8. **medical_meadow_wikidoc**：10000条问答对——此类问答对从免费医学教科书WikiDoc中提取得到。 9. **medical_meadow_wikidoc_medical_flashcards**：33955条问答对——医学抽认卡以问答形式提供精简的医学信息。 10. **MedQA-USMLE-4-options**：10178条问答对——此类问答对采用与美国医学执照考试（USMLE）相似的格式。 ## 潜在应用场景 Healix-V1可应用于诸多场景，例如： - 训练面向医疗聊天机器人的AI模型 - 开发面向医学数据库的高级搜索引擎 - 为医学生构建辅导系统 - 优化自动化患者辅助系统 - 辅助开发医学考试备考系统 ## 数据长度分布 - (0.0, 256.0]：96.724181% - (256.0, 512.0]：2.903792% - (512.0, 768.0]：0.299476% - (768.0, 1024.0]：0.050675% - (1024.0, 2048.0]：0.018910% ## 元数据 - **许可证**：ODC-BY - **语言**：英语 - **标签**：生物学、医学 - **规模类别**：100K<n<1M ## 数据集详情 - **特征**： - 名称：text - 数据类型：字符串 - **划分**： - 名称：train - 字节数：419605911 - 样本数：798902 - **下载大小**：209261302字节 - **数据集大小**：419605911字节

提供机构：

health360

原始信息汇总

Healix-V1 Dataset

描述

Healix-V1是一个包含809k医学领域问答对的丰富多样的数据集。该数据集精心策划，旨在推动医学语言理解、医学对话系统和知识提取等领域的研究。Healix-V1是开发和改进医疗应用机器学习模型的宝贵资源，使它们能够在医学背景下理解和生成类似人类的响应。数据集遵循ALPACA模型微调的格式：

plaintext

Input:

Question

Response:

Answer

数据来源

数据集从多种有价值和权威的来源编译而成，每种来源贡献不同类型的医学问答对：

医学书籍: 426,241 QA对 - 这些对来自一系列权威医学书籍。问题被提取并作为提示提供给GPT-3.5，后者生成相应的答案。
jianghc/medical_chatbot: 46,867 QA对 - 这是一个来自医学聊天机器人项目的数据集。
医学问答数据集(MQuAD): 23,802 QA对 - MQuAD是专为问答任务设计的医学数据集。
PubMed: 1,000 QA对 - 这些对从PubMed的大量医学文章中提取。
GenMedGPT: 5,000 QA对 - 来自旨在生成医学语言的GenMedGPT项目。
iCliniq: 7,321 QA对 - iCliniq是一个用户询问健康相关问题并由认证医生回答的平台。
HealthCareMagic: 100,000 QA对 - HealthCareMagic是一个拥有大量用户生成医学问答的互动健康平台。
medical_meadow_wikidoc: 10,000 QA对 - 这些对从WikiDoc免费医学教科书中提取。
medical_meadow_wikidoc_medical_flashcards: 33,955 QA对 - 医学闪卡以问答格式提供简洁的医学信息。
MedQA-USMLE-4-options: 10,178 QA对 - 这些QA类似于美国医学执照考试的格式。

潜在应用

Healix-V1可用于多种目的，如：

训练医学聊天机器人的人工智能模型
开发医学数据库的高级搜索引擎
创建医学生的辅导系统
增强自动化患者辅助系统
帮助开发医学考试准备的系统

数据长度分布

(0.0, 256.0]: 96.724181%
(256.0, 512.0]: 2.903792%
(512.0, 768.0]: 0.299476%
(768.0, 1024.0]: 0.050675%
(1024.0, 2048.0]: 0.018910%

元数据

许可证: ODC-BY
语言: 英语
标签: 生物学, 医学
大小类别: 100K<n<1M

数据集信息

特征:
- 名称: text
- 数据类型: 字符串
分割:
- 名称: train
- 字节数: 419605911
- 示例数: 798902
下载大小: 209261302字节
数据集大小: 419605911字节

搜集汇总

数据集介绍

构建方式

在医学信息学领域，构建高质量的数据集对于推动智能医疗应用至关重要。Healix-V1数据集通过整合多元化的权威医学资源，精心汇编了约80.9万条英文问答对。其构建过程融合了传统医学文献与前沿生成技术，例如从医学书籍中提取问题并借助GPT-3.5生成对应答案，同时汇集了来自医疗聊天机器人项目、专业问答平台如iCliniq与HealthCareMagic、学术数据库PubMed以及医学考试题库等多种来源，确保了数据在内容与形式上的丰富性与可靠性。

使用方法

在医疗人工智能的研究与应用中，Healix-V1可作为关键训练资源支持多类任务。使用者可直接加载数据集的训练分割，利用其结构化问答对进行监督式学习，例如微调大型语言模型以构建医疗聊天机器人或智能问答系统。数据中的问题与答案可分别作为模型输入与预期输出，适用于序列到序列或因果语言建模等范式。此外，该数据集亦能用于增强医学信息检索模型的语义理解能力，或作为评估基准检验模型在专业领域的知识掌握水平。

背景与挑战

背景概述

在医学人工智能领域，高质量数据集的构建是推动自然语言处理技术发展的关键基石。Healix-V1数据集由health360团队精心构建，汇集了来自医学教材、专业数据库及临床问答平台等多元权威来源的80.9万条医学问答对。该数据集旨在为医学语言理解、对话系统及知识抽取等研究方向提供丰富的训练资源，其结构化格式适配于ALPACA等模型的微调需求，显著促进了医疗聊天机器人、智能辅助诊断系统等应用的技术迭代与性能提升。

当前挑战

该数据集致力于应对医学问答系统中语义理解深度不足与知识覆盖局限性的核心难题，其挑战体现在多源异构数据的整合与标准化处理过程中。构建者需克服不同来源医学文本在术语表述、专业粒度及逻辑结构上的差异，同时确保生成式答案的准确性与临床可靠性。此外，数据长度分布的高度不均衡与长文本样本的稀疏性，也为模型训练中的序列建模与知识连贯性保持带来了额外挑战。

常用场景

经典使用场景

在医学自然语言处理领域，Healix-V1数据集以其丰富的问答对结构，为医疗对话系统的开发提供了核心训练资源。该数据集常被用于微调大型语言模型，如基于ALPACA格式的模型，以提升模型在医学语境下的理解和生成能力。通过模拟真实医患交互场景，研究者能够构建出能够准确解析医学问题并生成专业、可靠回答的智能系统，从而推动医疗人工智能向更人性化、精准化的方向发展。

解决学术问题

Healix-V1数据集有效应对了医学人工智能研究中数据稀缺与质量参差的挑战。它通过整合多源权威医学知识，如医学书籍、学术文献及临床平台数据，为模型训练提供了高质量、多样化的语料。这解决了医学语言理解中专业术语处理、上下文关联推理以及知识准确性的关键学术问题，显著提升了模型在医学问答、知识抽取等任务上的性能，为后续研究奠定了坚实的数据基础。

实际应用

在实际医疗场景中，Healix-V1数据集支撑了多种智能化应用的落地。基于该数据集训练的模型可集成于医疗聊天机器人中，为患者提供初步的病症咨询与健康指导；同时，它也能赋能医学教育系统，辅助医学生进行知识复习与考试准备，如USMLE类试题的模拟解答。此外，在医疗信息检索与患者辅助系统中，此类模型能够快速从海量文献中提取关键信息，提升医疗服务效率与可及性。

数据集最近研究