li-lab/MultiMed

Name: li-lab/MultiMed
Creator: li-lab
Published: 2026-04-04 06:11:52
License: 暂无描述

Hugging Face2026-04-04 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/li-lab/MultiMed

下载链接

链接失效反馈

官方服务：

资源简介：

这是我们正在进行项目推进多语言医疗AI：GlobMed基准测试和低资源语言医疗QA的代理管道的样本数据。数据集是多语言的，专注于医疗问答。它包括语言、原始英文数据、机器翻译数据以及由人类医学专家对准确性、流畅性、完整性、专家修订数据和评论的评估。数据集较小（少于1K条目），采用cc-by-sa-4.0许可。列出了贡献者，表明来自全球多个医疗和学术机构的合作努力。

This is the sample data for our ongoing project Advancing Multilingual Medical AI: GlobMed Benchmarking and Agentic Pipelines for Medical QA in Low-Resource Languages. The dataset is multilingual and focuses on medical question-answering. It includes columns for language, original English data, machine-translated data, and evaluations by human medical experts on accuracy, fluency, completeness, expert-revised data, and comments. The dataset is small (less than 1K entries) and is licensed under cc-by-sa-4.0. The contributors are listed, indicating a collaborative effort from various medical and academic institutions worldwide.

提供机构：

li-lab

搜集汇总

数据集介绍

构建方式

在医学人工智能领域，构建高质量的多语言数据集对于提升模型在资源匮乏语言中的表现至关重要。MultiMed数据集的构建始于原始英文医学问答数据的收集，随后通过机器翻译技术将其转化为多种目标语言。为确保翻译内容的准确性、流畅性与完整性，项目组邀请了来自全球多所顶尖医学院校的医学专家，对机器翻译结果进行人工评估与修订，并提供了详细的定性反馈。这一严谨的构建流程融合了自动化技术与专业领域知识，旨在为低资源语言的医学问答研究奠定可靠的数据基础。

特点

该数据集的核心特征在于其高度的专业性与严格的质量控制。数据涵盖了多种语言，并针对每一条机器翻译数据，提供了由医学专家评定的准确性、流畅性和完整性三个维度的量化评分。此外，数据集还包含了经过专家修订的版本以及详细的定性评论，这为研究者深入分析翻译错误类型、理解医学语境下的语言细微差别提供了宝贵资源。其多语言、多维度标注的结构，使其成为评估和提升跨语言医学人工智能系统性能的理想基准。

使用方法

研究者可利用该数据集进行多语言医学问答模型的训练与评估。具体而言，可将原始英文数据与机器翻译数据作为输入，以专家修订数据作为高质量参考，进行机器翻译质量评估或跨语言知识迁移研究。数据集中的多维专家评分可用于构建细粒度的性能评估指标，而专家评论则有助于进行错误分析与模型可解释性研究。该数据集尤其适用于开发面向低资源语言的医学人工智能代理流程，推动医疗信息服务的公平可及性。

背景与挑战

背景概述

MultiMed数据集是2025年由东京大学Irene Li团队主导，并获得谷歌研究学者计划支持的一项持续研究项目。该项目聚焦于推进多语言医疗人工智能的发展，旨在构建一个针对低资源语言的医疗问答基准与智能体流程。数据集的核心研究问题在于解决全球医疗信息获取的语言壁垒，通过整合来自东京大学、耶鲁大学、斯坦福大学等多所顶尖机构的医学专家与研究人员，创建了一个包含原始英文数据、机器翻译版本及医学专家人工修订与评估的多语言医疗文本集合。该数据集的构建标志着跨学科合作在弥合医疗AI领域语言鸿沟方面的关键努力，为开发包容性更强的医疗自然语言处理系统奠定了重要基础。

当前挑战

MultiMed数据集所应对的核心领域挑战，是低资源语言环境下医疗问答系统的准确性与可靠性问题。医疗文本具有高度的专业性与语境敏感性，机器翻译在传递精确医学术语和复杂临床描述时极易产生歧义或错误，这直接威胁到下游AI应用的安全性与有效性。在数据构建过程中，挑战主要集中于确保翻译质量的多维度评估。这需要医学专家对机器翻译结果在准确性、流畅性和完整性上进行细致的人工标注与修订，该过程耗费大量专业人力且标准统一难度高。同时，协调来自全球不同背景的医学贡献者以维持数据标注的一致性与专业性，亦是项目执行中的关键难点。

常用场景

经典使用场景

在医学人工智能领域，多语言医疗问答系统的开发面临数据稀缺的挑战。MultiMed数据集通过提供包含原始英文文本、机器翻译版本及医学专家修订与评估的多语言医疗问答数据，为研究人员构建和优化跨语言医疗问答模型提供了关键资源。该数据集典型应用于训练和评估机器翻译系统在医学领域的性能，特别是针对低资源语言，助力提升翻译的准确性、流畅性和完整性，从而支持全球医疗信息的无障碍访问。

衍生相关工作

围绕MultiMed数据集，已衍生出多项聚焦于低资源语言医疗AI的前沿工作。这些研究通常涉及构建基于该数据集的基准测试，如GlobMed Benchmark，用以系统评估多语言医疗问答模型的性能。同时，相关工作也探索了结合专家修订数据的Agentic Pipelines（智能体流程），以提升模型在专业领域的可靠性和安全性。这些努力共同推动了医疗自然语言处理向更高效、更可信的多语言方向发展。

数据集最近研究