Med-Inquire

Name: Med-Inquire
Creator: 微软研究院; 新加坡国立大学
Published: 2026-01-30 21:26:18
License: 暂无描述

arXiv2026-01-30 更新2026-02-05 收录

下载链接：

https://github.com/yf-he/EvoClinician

下载链接

链接失效反馈

官方服务：

资源简介：

Med-Inquire是由微软研究院和新加坡国立大学联合开发的医疗诊断交互式基准数据集，基于真实临床病例构建。该数据集通过模拟医生问诊流程，将完整病例信息隐藏在专用代理后，要求AI系统通过多轮询问和检查逐步获取信息。数据集包含标准化成本模型和诊断评分体系，旨在评估AI在资源受限条件下的渐进式诊断能力，推动医疗AI从静态诊断向动态临床决策范式转变。

Med-Inquire is an interactive benchmark dataset for medical diagnosis jointly developed by Microsoft Research and the National University of Singapore, built upon real clinical cases. This dataset simulates the physician consultation workflow, hides complete patient medical information behind a dedicated agent, and requires AI systems to gradually acquire information through multi-round inquiries and examinations. It includes a standardized cost model and diagnostic scoring system, aiming to evaluate the progressive diagnostic capability of AI under resource-constrained conditions and promote the paradigm shift of medical AI from static diagnosis to dynamic clinical decision-making.

提供机构：

微软研究院; 新加坡国立大学

创建时间：

2026-01-30

原始信息汇总

EvoClinician 数据集概述

数据集基本信息

数据集名称：EvoClinician / Med-Inquire
数据集类型：交互式多轮医学诊断基准测试数据集
数据格式：JSONL
主要文件：data/test-00000-of-00001.jsonl

数据内容与结构

数据领域：皮肤病学临床病例
病例结构：每个病例包含以下字段：
- id
- case_information
- physical_examination
- diagnostic_tests
- final_diagnosis
- options

环境与交互模型

环境名称：Med-Inquire
核心代理：
- Patient 代理
- Examination 代理
- Judge 代理
动作类型：
- AskQuestion：向 Patient 代理提出自由形式的问题
- OrderTest：向 Examination 代理请求检查
- SubmitDiagnosis：提交最终诊断并结束回合
评估机制：
- 成本模型：为每个动作和检查分配成本，总成本为各轮次成本之和
- 评分机制：Judge 代理将最终诊断与真实诊断进行比较，返回评分 (S \in [0, 100])

代理架构

EvoClinician 代理：基于测试时进化学习的自进化代理
核心循环：诊断-评分-进化循环
组成模块：
- Actor：使用提示和外部记忆缓冲区与环境交互
- ProcessGrader：对交互记录进行事后审查，为动作分配标签并提供理由
- Evolver：根据已评分的动作更新 Actor 的提示规则，并维护情景记忆条目

进化学习特性

策略状态进化：提示规则和外部记忆在测试时跨病例进化
记忆机制：基于规则的情景记忆存储在动作级别
学习分离：骨干大语言模型权重保持不变，策略状态独立进化

使用与扩展

数据扩展：可通过向现有 JSONL 文件追加数据或创建符合相同模式的新文件来添加更多病例
自定义：可通过修改 agents/actor.py 和 agents/grader.py 中的提示和评分标签进行定制

搜集汇总

数据集介绍

构建方式

在临床诊断领域，传统的人工智能模型通常依赖一次性输入完整病历进行诊断，这与现实中医生通过多轮问诊和检查逐步收集信息的动态过程存在显著差异。为弥合这一差距，Med-Inquire数据集基于真实世界临床病例构建，其核心设计在于模拟真实的诊断流程：将完整的患者档案隐藏于专门的“患者”和“检查”智能体之后，迫使诊断智能体必须主动发起提问或下达检查指令，以片段化方式逐步获取信息。该数据集源自DiagnosisArena，包含915个从《新英格兰医学杂志》等顶级期刊中提取的真实病例，每个病例均结构化分为病例信息、体格检查、诊断测试和最终诊断四部分，确保了数据的临床可靠性与丰富性。

使用方法

使用Med-Inquire数据集时，研究者需将其部署为交互式诊断环境。智能体在每轮诊断中，依据初始病情摘要，通过JSON格式的动作指令（包括提问、下达检查或提交诊断）与环境交互，并接收相应的文本反馈与成本累积。数据集设定了最大交互轮数以保证评估的可复现性，并记录完整的交互轨迹、最终诊断评分及总成本。该数据集主要用于评估和开发能够在多轮交互中主动规划信息收集策略、并平衡诊断准确性与资源消耗的智能体。基于其构建的基准测试，可系统比较不同智能体在诊断准确性、交互轮次和资源成本三个维度上的性能，为推进更贴近真实临床需求的医疗人工智能研究提供关键支撑。

背景与挑战

背景概述

医学人工智能领域长期存在静态诊断范式的局限性，传统模型依赖一次性输入完整病历进行诊断，这与临床实践中动态、迭代的诊疗过程存在显著差异。为弥合这一鸿沟，微软研究院与新加坡国立大学的研究团队于2026年提出了Med-Inquire数据集。该数据集基于DiagnosisArena收录的915例真实临床病例构建，核心研究目标在于模拟现实世界中医师通过多轮问诊与检查逐步收集信息、平衡诊断准确性与资源效率的决策过程。通过引入专门的‘患者代理’与‘检查代理’隐藏完整病历，Med-Inquire强制评估代理必须主动发起询问与测试申请，从而推动医学AI从静态分类向交互式推理的范式转变，对临床决策支持系统的评估体系产生了深远影响。

当前挑战

Med-Inquire旨在解决的领域核心挑战是评估智能体在资源约束下进行多轮序列诊断决策的能力，这超越了传统的单次诊断准确性评估。具体挑战包括：在部分可观测环境中进行高效信息搜集的规划问题、在诊断不确定性与检查成本之间取得平衡的优化问题，以及判断何时停止询问并提交诊断的终止决策问题。在数据集构建层面，主要挑战源于如何将静态病历转化为交互式环境，包括设计能基于隐藏病历生成合理、一致回答的‘患者代理’、构建能模拟真实检查结果返回机制的‘检查代理’，以及建立一套可复现且具有临床意义的资源成本量化模型，确保评估既贴合实际又具备可比性。

常用场景

经典使用场景

在医学人工智能领域，传统评估范式多依赖于一次性输入完整病历的静态诊断模型，这与真实临床实践中动态、迭代的诊断过程存在显著差异。Med-Inquire数据集通过模拟真实临床场景，构建了一个多轮交互式诊断基准，其经典使用场景在于评估智能体在信息不完全条件下的主动询问与测试排序能力。该数据集将完整病历隐藏在专门的Patient和Examination代理之后，迫使智能体必须像人类医生一样，通过逐步提问和检查来收集信息，从而在诊断准确性与资源效率之间寻求平衡。

解决学术问题

Med-Inquire数据集主要解决了医学人工智能研究中长期存在的关键学术问题：如何评估智能体在动态、资源受限环境下的诊断策略。传统基准仅关注最终诊断准确性，忽视了诊断过程中的信息获取效率与成本控制。该数据集通过引入多轮交互、成本模型和诊断分级评分，为研究提供了衡量智能体临床推理能力与资源管理能力的综合框架。其意义在于推动了医学AI从静态问答向动态决策的范式转变，为开发更贴近实际临床需求的智能系统奠定了评估基础。

实际应用

在实际应用层面，Med-Inquire数据集为开发临床决策支持系统提供了重要的仿真环境。它能够用于训练和评估AI辅助诊断工具，使其学会在有限资源下进行高效、安全的诊断流程。例如，该系统可模拟初级医生培训场景，帮助医学生练习在信息不全时如何优先提问和选择检查。此外，该框架也可扩展至其他需要序列决策的领域，如客户服务或金融管理，其中智能体需在约束条件下规划行动并获取反馈。

数据集最近研究