ApolloCorpus

github2024-04-26 更新2024-05-31 收录

下载链接：

https://github.com/FreedomIntelligence/Apollo

下载链接

链接失效反馈

官方服务：

资源简介：

ApolloCorpus是一个多语言医学数据集，包含英语、中文、法语、印地语、西班牙语和阿拉伯语等多种语言的医学书籍、指南、论文和网络论坛内容。数据集中的每个数据项以JSON格式存储，包含数据来源、语言和数据类型等信息。

The ApolloCorpus is a multilingual medical dataset encompassing a variety of languages including English, Chinese, French, Hindi, Spanish, and Arabic. It comprises medical books, guidelines, research papers, and web forum content. Each data entry in the dataset is stored in JSON format, containing information such as the source, language, and type of data.

创建时间：

2024-01-22

原始信息汇总

数据集概述

数据集名称与链接

ApolloCorpus
- 链接: 🤗 ApolloCorpus
XMedBench
- 链接: 🤗 XMedBench

数据集内容

ApolloCorpus
- 数据类型: 医学书籍、医学指南、医学论文、在线论坛的医学网页、医学维基
- 语言: 英语(en)、中文(zh)、西班牙语(es)、法语(fr)、印地语(hi)
- 数据格式:
  - 文本类型: 字符串列表
  - QA类型: QA对列表
XMedBench
- 评估数据集包括:
  - 英语(EN): MedQA-USMLE, MedMCQA, PubMedQA, MMLU-Medical
  - 中文(ZH): MedQA-MCMLE, CMB-single, CMMLU-Medical, CExam
  - 西班牙语(ES): Head_qa
  - 法语(FR): Frenchmedmcqa
  - 印地语(HI): MMLU_HI
  - 阿拉伯语(AR): MMLU_Ara

数据集发布日期

ApolloCorpus 和 XMedBench
- 发布日期: 2024.02.12

数据集使用格式

0.5B, 1.8B, 2B, 6B, 7B
- 格式: User:{query} Assistant:{response}<|endoftext|>
34B, 72B
- 格式: <|User|>:{query} <|Assistant|>:{response}<|endoftext|>

数据集评估

XMedBench
- 评估数据集详细信息见数据集详情页

数据集更新

2024.04.25
- MedJamba发布，训练和评估代码参考repo

数据集引用

引用格式:

@misc{wang2024apollo, title={Apollo: Lightweight Multilingual Medical LLMs towards Democratizing Medical AI to 6B People}, author={Xidong Wang and Nuo Chen and Junyin Chen and Yan Hu and Yidong Wang and Xiangbo Wu and Anningzhe Gao and Xiang Wan and Haizhou Li and Benyou Wang}, year={2024}, eprint={2403.03640}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

ApolloCorpus数据集的构建方式体现了多语言医学数据的广泛覆盖与深度整合。该数据集从多种数据源中提取医学相关内容，包括医学书籍、指南、论文、在线论坛和维基百科等，涵盖了英语、中文、法语、西班牙语、印地语和阿拉伯语等多种语言。数据类型包括纯文本和问答对，其中问答对是通过从文本中自动生成的方式构建的，确保了数据的多功能性和实用性。此外，数据集还分为预训练数据和监督微调数据，分别用于模型的预训练和特定任务的微调，从而为医学领域的自然语言处理模型提供了丰富的训练资源。

特点

ApolloCorpus数据集的主要特点在于其多语言性和多样化的数据来源。该数据集不仅覆盖了多种语言，还整合了来自不同医学领域的数据，如医学书籍、指南、论文等，确保了数据的广泛性和代表性。此外，数据集中的问答对形式为模型提供了结构化的训练数据，有助于提升模型在医学问答任务中的表现。数据集的分类和标注方式也使得其适用于不同层次的模型训练需求，从预训练到微调，均能提供有效的支持。

使用方法

ApolloCorpus数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以通过Hugging Face平台直接访问和下载数据集，数据以JSON格式存储，便于解析和处理。数据集中的问答对可以直接用于训练医学问答模型，而纯文本数据则可用于语言模型的预训练。此外，数据集的分类和标注方式使得用户可以根据具体需求选择不同的数据子集进行训练或评估。数据集还提供了详细的文档和示例代码，帮助用户快速上手并应用于实际项目中。

背景与挑战

背景概述

ApolloCorpus数据集由FreedomIntelligence团队主导开发，旨在推动多语言医学领域的研究。该数据集于2024年2月首次发布，涵盖了英语、中文、法语、西班牙语、印地语和阿拉伯语等多种语言，专注于医学文本的预训练与微调。其核心研究问题在于如何构建一个轻量级且高效的多语言医学语言模型，以促进全球范围内医疗AI的普及与应用。ApolloCorpus的发布不仅为医学领域的多语言处理提供了丰富的资源，还为相关研究提供了基准测试平台，推动了医学AI的民主化进程。

当前挑战

ApolloCorpus在构建过程中面临多重挑战。首先，多语言数据的收集与处理是一个复杂的过程，涉及不同语言的医学文本的获取、清洗与标注。其次，如何在有限的计算资源下实现高效的多语言模型训练，同时保持模型的轻量级与高性能，是该数据集面临的技术难题。此外，医学领域的专业性与严谨性要求数据集在内容上必须具备高度的准确性与可靠性，这对数据的质量控制提出了更高的要求。最后，如何在全球范围内推广并应用该数据集，使其真正服务于60亿人口，也是一项巨大的挑战。

常用场景

经典使用场景

ApolloCorpus数据集在多语言医学领域中展现了其经典应用场景，尤其是在医学文本的预训练和微调任务中。该数据集涵盖了多种语言的医学书籍、指南、论文、网络论坛和维基内容，为构建多语言医学问答系统提供了丰富的资源。通过提取和生成问答对，研究人员可以利用这些数据进行模型训练，从而提升模型在医学领域的理解和生成能力。

实际应用

在实际应用中，ApolloCorpus数据集被广泛用于构建和优化多语言医学问答系统、医学教育辅助工具以及临床决策支持系统。例如，该数据集可以用于训练模型，使其能够在中文、英文、法语等多种语言环境下为患者提供准确的医学建议。此外，该数据集还支持医学考试辅助系统的开发，帮助学生和医生进行高效的医学知识复习和测试。

衍生相关工作

基于ApolloCorpus数据集，研究人员开发了多个相关的经典工作，包括多语言医学语言模型的训练与评估框架、跨语言医学知识迁移的研究以及医学问答系统的优化。例如，ApolloMoE项目利用该数据集训练了覆盖50种语言的多语言医学模型，而MedJamba项目则专注于医学问答系统的训练和评估。这些工作不仅丰富了医学AI的研究领域，还为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集