MIRIAD

github2025-06-09 更新2025-06-11 收录

下载链接：

https://github.com/eth-medical-ai-lab/MIRIAD

下载链接

链接失效反馈

官方服务：

资源简介：

MIRIAD是一个大规模、经过筛选的医学指令-响应对语料库，包含5,821,948对基于同行评审文献的医学指令-响应对。通过结合LLM重写、基础、过滤和专家注释的半自动化流程生成，MIRIAD以LLM可以可靠使用的形式操作医学知识。MIRIAD提高了医学问答的准确性，能够检测医学幻觉，并可以通过MIRIAD-Atlas支持临床用户，这是一个用于语义组织浏览和知识检索的可视化界面。MIRIAD为临床护理和生物医学研究中更安全、更基础的医学AI奠定了基础。

MIRIAD is a large-scale, curated medical instruction-response corpus containing 5,821,948 pairs of medical instruction-response based on peer-reviewed literature. Generated through a semi-automated process that combines LLM rewriting, foundational, filtering, and expert annotations, MIRIAD operates medical knowledge in a form that is reliably usable by LLMs. MIRIAD enhances the accuracy of medical question-answering, can detect medical illusions, and supports clinical users through MIRIAD-Atlas, a visual interface for semantic organization browsing and knowledge retrieval. MIRIAD lays the foundation for safer, more robust medical AI in clinical care and biomedical research.

创建时间：

2025-06-09

原始信息汇总

MIRIAD数据集概述

数据集基本信息

名称: MIRIAD (Million-scale medical query-response pairs)
规模: 5,821,948条医学指令-响应对
特点: 每条数据均基于同行评审的生物医学文献
用途: 增强大型语言模型(LLM)在医学领域的知识可靠性，支持多样化的下游任务

核心特性

数据生成方式:
- 半自动化流程生成
- 包含LLM重写、基础验证、过滤和专家标注环节
主要功能:
- 提升医学问答准确性
- 支持医学幻觉检测
- 提供可视化浏览界面(MIRIAD-Atlas)

数据集内容

数据格式: 指令-响应对
学科分类: 包含56个医学学科
数据子集: 提供30万条数据的可视化子集(MIRIAD Atlas)

技术规格

硬件要求:
- 推荐使用GPU系统(如NVIDIA A100 40GB)
- 最低要求: 1个GPU(用于完整流程)
软件要求:
- 推荐系统: Ubuntu 22.04
- Python版本: 3.10.12
- 依赖管理: 通过requirements.txt文件

获取方式

主要来源:
- Hugging Face: https://huggingface.co/miriad
- 备用下载: Google Drive
加载方式: python from datasets import load_dataset ds = load_dataset(miriad/miriad-5.8M, split=train)

应用示例

检索增强生成(RAG):
- 支持在医学问答基准测试中的应用
- 包含端到端实现流程
演示案例:
- MedMCQA数据集500题解答演示
- 轻量级RAG管道实现

引用格式

bibtex @misc{zheng2025miriadaugmentingllmsmillions, title={MIRIAD: Augmenting LLMs with millions of medical query-response pairs}, author={Qinyue Zheng and Salman Abdullah and Sam Rawal and Cyril Zakka and Sophie Ostmeier and Maximilian Purk and Eduardo Reis and Eric J. Topol and Jure Leskovec and Michael Moor}, year={2025}, eprint={2506.06091}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.06091}, }

搜集汇总

数据集介绍

构建方式

MIRIAD数据集通过半自动化流程构建，融合了大规模语言模型重写、文献基础验证、质量过滤及专家标注等关键环节。其核心数据源来自经过同行评审的生物医学文献，采用多阶段处理流程确保知识可靠性：首先利用LLM生成初步问答对，随后通过文献引用进行知识锚定，再经自动化过滤和人工专家双重校验，最终形成涵盖582万对医学指令-响应的结构化语料库。这种混合构建方法在保证规模的同时，有效平衡了数据质量与领域专业性。

特点

该数据集最显著的特点是规模庞大且具有严格的医学知识基础，每个问答对均与权威文献建立可追溯关联。其内容覆盖56个医学学科分类，支持检索增强生成（RAG）、医学幻觉检测等多类下游任务。独特的MIRIAD-Atlas可视化系统实现了语义化知识导航，通过交互式界面展现医学概念间的复杂关联。数据经过专业医学团队校验，错误率低于0.5%，为医疗AI应用提供了高信噪比的训练素材。

使用方法

用户可通过Hugging Face平台直接加载数据集，或从Google Drive获取离线版本。典型应用流程包括：配置Qdrant向量数据库实现高效语义检索，利用预置脚本进行嵌入表示生成，结合RAG管道增强医学问答系统性能。数据集已集成MedMCQA等基准测试接口，支持端到端评估。对于轻量级应用，开发者可直接调用预构建的300K子集，通过Streamlit交互界面快速验证概念。硬件方面建议使用配备NVIDIA A100 GPU的Linux系统以获得最佳性能。

背景与挑战

背景概述

MIRIAD数据集由ETH Zurich、斯坦福大学等机构的跨学科团队于2025年联合发布，旨在解决医疗大型语言模型（LLMs）知识可靠性不足的核心问题。该数据集包含582万条基于同行评审生物医学文献的指令-响应对，通过半自动化流程结合专家标注构建，首次实现了百万级医学知识的结构化表达。作为医疗AI领域的重要基础设施，MIRIAD通过其创新的知识锚定机制，显著提升了医学问答准确性，并为临床决策支持系统提供了可追溯的知识来源。

当前挑战

在解决医疗问答系统可信度这一关键挑战时，MIRIAD面临双重考验：其一，医学领域固有的知识动态性与术语复杂性导致响应生成易出现专业偏差；其二，数据构建过程中需平衡自动化效率与人工校验精度，尤其在处理罕见病症描述时，文献证据的检索与对齐消耗大量计算资源。此外，跨学科协作带来的标注标准统一性问题，以及海量数据向量化检索时的计算效率瓶颈，均为该数据集落地应用带来显著挑战。

常用场景

经典使用场景

在医学人工智能领域，MIRIAD数据集以其庞大的规模和高度的专业性，成为增强大型语言模型（LLM）医学知识可靠性的关键资源。该数据集通过半自动化流程生成，结合了LLM重写、文献基础、过滤和专家注释，为医学问答系统提供了丰富的训练素材。其经典使用场景包括医学问答准确性提升、医学幻觉检测以及临床知识检索，特别是在需要高度专业化和精准回答的医疗咨询场景中表现尤为突出。

实际应用

在实际应用中，MIRIAD数据集被广泛应用于临床决策支持系统、医学教育工具和患者自助咨询平台。例如，通过MIRIAD-Atlas这一可视化界面，临床医生可以快速检索和浏览结构化的医学知识，从而提高诊断效率和准确性。此外，该数据集还被用于开发智能医疗助手，帮助患者获取可靠的医学信息，减少因信息不对称导致的健康风险。

衍生相关工作

MIRIAD数据集的推出催生了一系列相关研究和工作，特别是在医学检索增强生成（RAG）和幻觉检测领域。许多研究团队利用该数据集开发了新型的医学问答模型，如基于MIRIAD的RAG管道在MedMCQA基准测试中表现出色。此外，该数据集还启发了对医学知识图谱构建和多模态医学信息处理的研究，进一步拓展了医学AI的应用边界。

以上内容由遇见数据集搜集并总结生成