MAIA

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/wisefrog/MAIA

下载链接

链接失效反馈

官方服务：

资源简介：

MAIA Benchmark for Medical Agents是一个用于评估自主医学代理人在规划、调用外部工具和临床推理方面能力的基准数据集。它包含了1014个实例，分为检索、知识图谱推理和诊断路径三个任务家族。数据集遵循统一模式，以便基于LLM的代理人决定是否、何时以及如何调用提供的API。每个实例都包括问题、工具调用、答案和类型等信息。

创建时间：

2025-06-15

搜集汇总

数据集介绍

构建方式

MAIA数据集作为医学智能体评估基准，其构建过程充分融合了临床医学与人工智能交叉领域的前沿需求。研究团队从PubMed文献库和临床试验数据中精选知识要素，通过专家标注构建了包含检索问答、知识图谱推理和诊断路径三大任务家族的标准化测试集。数据采集严格遵循医学知识体系层级结构，每个样本均采用统一JSON schema封装工具调用参数与参考答案，确保评估过程中智能体的决策逻辑可被精准量化。

特点

该数据集最显著的特征在于其多维度的临床能力评估框架，涵盖100个医学信息检索样本、466个知识图谱多跳推理案例以及448个真实诊断路径场景。每个数据样本均包含工具调用序列和标准答案，支持对智能体在API调用时机选择、参数生成及临床推理链条构建等方面的细粒度评估。数据来源均经过临床专家验证，特别注重医学知识的时效性与权威性，为衡量AI系统在复杂医疗决策中的表现提供了可靠基准。

使用方法

使用该数据集时，研究者可通过加载标准化的JSON格式数据文件开展端到端评估。评估流程要求智能体根据问题类型自主决策工具调用策略，系统将比对预测工具调用序列与标准答案的吻合度。数据集支持对检索类任务采用精确匹配指标，对推理类任务采用临床合理性评估，开发者可通过分析工具调用轨迹与最终答案的联合准确率，全面衡量医学智能体的多维度能力表现。

背景与挑战

背景概述

MAIA（Medical Agent Intelligence Assessment）基准测试数据集由国际研究团队于2025年CIKM会议期间推出，旨在系统评估自主医疗代理在临床决策支持系统中的核心能力。该数据集聚焦医疗人工智能领域的关键需求，通过结构化任务设计衡量智能体在信息检索、知识图谱推理和诊断路径规划三个维度的表现。其创新性在于构建了统一的API调用框架，要求模型动态判断工具调用的必要性、时机及参数生成，为医疗决策支持系统的可解释性研究提供了标准化评估平台。数据集收录的1,014个案例均来自真实临床场景和权威医学文献，体现了跨学科团队对医疗AI实用化挑战的深刻理解。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决医疗信息检索中的语义鸿沟问题，要求模型精准理解医学术语并关联分散的多模态数据；知识图谱推理任务涉及跨模态异构图谱的路径搜索，现有算法在长程推理准确率上存在显著瓶颈；诊断路径模拟则需平衡临床指南的规范性与个体化病例的复杂性。在构建过程中，标注团队面临医学专业知识壁垒，每个案例需经过临床专家三重验证，且工具调用参数的标准化表述需要保持医学精确性与机器可读性的微妙平衡。数据集设计的动态API调用机制对传统评估范式提出革新要求，如何建立兼顾灵活性与可靠性的评分体系成为方法论层面的核心挑战。

常用场景

经典使用场景

在医学人工智能领域，MAIA数据集为评估自主医疗代理的临床推理能力提供了标准化测试平台。该数据集通过结构化任务设计，模拟真实医疗场景下代理系统对PubMed文献检索、知识图谱多跳推理以及诊断路径规划等核心能力的测试，成为衡量医疗AI系统综合性能的黄金基准。其精心设计的1,014个评估项覆盖了从信息检索到复杂临床决策的全链条能力验证。

解决学术问题

MAIA数据集有效解决了医疗AI领域三大关键研究问题：跨模态医学信息的精准检索效率评估、知识图谱中隐含医学逻辑的推理能力验证，以及动态临床决策路径的优化建模。通过标准化评估框架，该数据集为比较不同医疗代理系统的性能提供了统一尺度，显著推进了可解释医疗决策系统的理论研究，填补了复杂医疗场景下智能体评估体系的空白。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集