GlobMed

github2026-01-10 更新2026-01-12 收录

下载链接：

https://github.com/ruiyang-medinfo/GlobMed

下载链接

链接失效反馈

官方服务：

资源简介：

GlobMed是迄今为止最大的多语言医疗数据集，涵盖20种语言，包含80万+条目。覆盖高资源语言（如阿拉伯语、中文、英语等）和低资源语言（如孟加拉语、马来语等）。核心任务包括自然语言推理、长形式问答和多选题问答等。

GlobMed is the largest multilingual medical dataset to date, covering 20 languages and containing over 800,000 entries. It covers both high-resource languages such as Arabic, Chinese, English, etc. and low-resource languages such as Bengali, Malay, etc. Its core tasks include natural language inference, long-form question answering, multiple-choice question answering, and more.

创建时间：

2026-01-03

原始信息汇总

GlobMed 数据集概述

数据集简介

GlobMed 是目前规模最大的多语言医学数据集，旨在推动全球医学领域大型语言模型的发展。

数据集规模与覆盖范围

数据条目：超过 800,000 条。
覆盖语言：20 种。
- 高资源语言：阿拉伯语、中文、英语、法语、德语、印地语、印度尼西亚语、日语、韩语、葡萄牙语、俄语、西班牙语、泰语。
- 低资源语言：孟加拉语、马来语、斯瓦希里语、乌尔都语、沃洛夫语、约鲁巴语、祖鲁语。

核心任务

数据集包含以下核心医学任务：

自然语言推理：BioNLI, MedNLI。
长格式问答：ExpertQA-Bio, ExpertQA-Med, LiveQA。
多项选择题问答：HeadQA, MedExpQA, MedQA, MMLU-Pro。

基准测试：GlobMed-Bench

基于 GlobMed 数据集，建立了 GlobMed-Bench，用于系统评估 56 个先进的大型语言模型在多语言医学任务上的表现。

评估模型：56 个先进的大型语言模型。
实验数量：超过 40,000 次独立实验。
生成响应：超过 1.25 亿条。
关键发现：
- 专有大型语言模型通常整体表现更强。
- 开源权重模型表现出显著的性能差异，并遵循缩放定律。
- 大型语言模型在不同语言间，尤其是低资源语言上，表现出显著的性能差距。
- 具备推理增强能力的大型语言模型持续优于非推理模型。
- 医学领域的大型语言模型并不总是优于其通用领域对应模型。

衍生模型：GlobMed-LLMs

基于 GlobMed 数据集训练了一系列多语言医学大型语言模型，参数规模从 17 亿到 80 亿不等。

使用方式

加载数据集

可通过 Hugging Face datasets 库加载数据集，例如加载英文的 GlobMed-MMLU-Pro： python from datasets import load_dataset globmed_mmlu_pro = load_dataset("ruiyang-medinfo/GlobMed_MMLU-Pro", "en")

运行评估

评估支持多种方式：

商业 API：使用 OpenAI、OpenRouter 或 Azure OpenAI 等。
本地模型（vLLM 服务）：启动 vLLM 服务器后通过 OpenAI 兼容接口调用。
本地离线推理（vLLM）：直接使用 vLLM 进行批量离线推理。

查看结果

使用 pretty_print 模块可以表格形式查看不同模型在指定任务和语言上的评估结果。

结果文件格式

JSONL 中间结果：每行对应一个样本的 JSON 对象，包含请求、响应和元数据。
JSON 最终结果：用于评分的聚合结果，包含样本 ID、模型答案和真实答案。

联系信息

Rui Yang: yang.rui@duke-nus.edu.sg
Weihao Xuan: xuan@ms.k.u-tokyo.ac.jp

引用

如需引用，请使用提供的 BibTeX 格式。

许可证

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在构建全球医疗大语言模型的宏大愿景下，GlobMed数据集通过整合多种权威医疗知识源而诞生。其构建过程系统性地汇集了超过80万条医疗条目，覆盖自然语言推理、长文本问答及多项选择题三大核心任务。数据来源广泛，包括BioNLI、MedNLI、ExpertQA、LiveQA、HeadQA、MedExpQA、MedQA以及MMLU-Pro等知名基准，确保了内容的专业性与多样性。该数据集特别注重语言的全球代表性，精心纳入了20种语言，既包含英语、中文、西班牙语等高资源语言，也涵盖了孟加拉语、斯瓦希里语、约鲁巴语等低资源语言，旨在弥合不同语言社区间的医疗信息鸿沟。

使用方法

研究人员可通过Hugging Face平台便捷加载GlobMed数据集的各个子集，例如使用特定代码加载英文版的MMLU-Pro任务数据进行模型训练或分析。对于模型评估，该框架提供了高度灵活的实施方案。用户可选择通过商业API（如OpenAI、Azure OpenAI）进行在线推理，也可利用vLLM在本地启动服务器或进行离线批量推理，以适应不同的计算资源与隐私需求。评估脚本支持多线程并行处理以提升效率，并具备自动恢复机制，能够从中断处继续执行，确保实验结果的完整性。评估完成后，用户可通过内置工具直观查看跨语言的性能对比表格，所有中间结果与最终评分均以结构化的JSON格式保存，便于后续的深入分析与比较研究。

背景与挑战

背景概述

在全球化医疗信息处理需求日益增长的背景下，多语言医学自然语言处理成为人工智能领域的关键研究方向。GlobMed数据集由Duke-NUS医学院等机构的研究团队于2025年创建，旨在构建迄今规模最大的多语言医学数据集，涵盖20种语言超过80万条数据条目。该数据集聚焦于医学自然语言推理、长文本问答与多项选择题回答三大核心任务，通过整合BioNLI、MedQA等权威医学基准，为开发全球性医疗大语言模型提供了重要的数据基础，显著推动了跨语言医学人工智能系统的发展。

当前挑战

GlobMed数据集致力于解决多语言医疗问答与推理任务的评估挑战，其核心在于如何系统衡量大语言模型在不同语言文化背景下的医学知识理解能力。在构建过程中，研究团队面临低资源语言医学数据稀缺的难题，需要克服数据采集、标注质量与语言平衡性的多重障碍。同时，数据集的评估框架需设计能够准确反映模型在复杂医学场景中推理能力的任务，并处理不同语言间术语体系与表达习惯的差异性，这对构建标准化、可扩展的多语言医学评估基准提出了严峻考验。

常用场景

经典使用场景

在医学人工智能领域，GlobMed数据集常被用于构建和评估多语言医疗大语言模型。其核心任务涵盖自然语言推理、长形式问答及多项选择题回答，为研究人员提供了一个标准化、大规模的多语言医疗知识基准。通过整合20种语言的80余万条条目，该数据集能够支持模型在多样化的语言和文化背景下进行训练与测试，从而推动全球医疗AI的均衡发展。

解决学术问题

GlobMed数据集有效解决了医疗AI研究中多语言资源匮乏的核心难题。传统医疗数据集多集中于英语等高资源语言，导致模型在低资源语言上表现不佳，加剧了全球医疗信息服务的数字鸿沟。该数据集通过覆盖包括阿拉伯语、中文、斯瓦希里语等20种语言，为公平评估模型的多语言医疗理解能力提供了坚实基础，并揭示了专有模型与开源模型之间、不同语言之间的性能差异，为后续研究指明了优化方向。

实际应用

在实际应用中，GlobMed数据集为开发全球可及的智能医疗助手和诊断支持系统提供了关键数据支撑。基于该数据集训练的模型，能够辅助医疗专业人员在多语言环境下进行医学文献理解、患者咨询解答和医学知识测评。例如，其衍生的GlobMed-LLMs系列模型，参数规模从1.7B到8B不等，可直接部署于临床或公共卫生场景，帮助弥合不同语言社区在获取高质量医疗信息方面的差距。

数据集最近研究