DCAgent2/medagentbench_Qwen2_5_Coder_32B_Instruct_20260425_083459

Name: DCAgent2/medagentbench_Qwen2_5_Coder_32B_Instruct_20260425_083459
Creator: DCAgent2
Published: 2026-04-25 10:56:30
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/medagentbench_Qwen2_5_Coder_32B_Instruct_20260425_083459

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 19527664 num_examples: 900 download_size: 19325559 dataset_size: 19527664 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

MedAgentBench_Qwen2_5_Coder_32B_Instruct_20260425_083459数据集是基于医疗领域智能体（Agent）能力评估需求而构建的高质量对话数据集。该数据集通过集成Qwen2.5-Coder-32B-Instruct模型，在预设的医疗任务场景中自动生成多轮交互对话，并记录每个智能体在任务执行过程中的完整轨迹。每条数据包含对话内容（conversations）、智能体名称（agent）、模型类型（model）、模型提供商（model_provider）、任务描述（task）、测试回合（episode）等关键字段。构建过程强调真实任务导向，通过多样化医疗场景的设置，确保数据集在评估模型推理与执行能力时的实用性与挑战性。

特点

该数据集的核心特点在于其多维度、结构化的元信息标注体系。每条样本不仅记录智能体与用户之间的完整对话历史，还附加了任务类型、运行标识（run_id）、试验名称（trial_name）及最终结果（result）与验证器输出（verifier_output），形成闭环的可追溯评价链条。数据集包含900条训练样本，兼顾规模与质量，适合用于模型的微调与评估。此外，模型类型和提供商的显式记录使得跨模型对比分析成为可能，为医疗领域大语言模型与智能体系统的性能基准测试提供了标准化数据支撑。

使用方法

该数据集主要适用于大语言模型在医疗场景下的智能体行为训练与评估。使用者可通过加载train分区的数据，利用对话字段（conversations）中的内容与角色信息构建多轮上下文，训练模型模拟医疗专业智能体进行问答与任务执行。同时，借助result与verifier_output字段，可设计自动化评测流程，衡量模型在不同医疗任务中的表现。建议在模型微调时，结合task与episode标签进行任务级分层采样，以提升模型对特定诊疗场景的泛化能力。

背景与挑战

背景概述

在人工智能与医疗健康深度融合的浪潮中，大语言模型驱动的智能体（Agent）逐渐成为临床辅助决策、多轮问诊和医疗文档处理的重要工具。MedAgentBench数据集由研究团队于2025年4月构建，旨在系统评估大语言模型在医疗场景下的智能体能力。该数据集包含900条训练样本，每条样本详细记录了对话历史、任务类型、执行结果及验证器输出等关键信息，覆盖了从症状询问到诊疗建议的完整交互流程。其核心研究问题聚焦于量化模型在医疗对话理解、工具调用与决策推理方面的综合表现。自发布以来，MedAgentBench为医疗智能体的可重复评测提供了标准化基准，推动了该领域从定性描述向定量分析的转变，对构建可信、高效的医疗AI助手具有重要学术与应用价值。

当前挑战

MedAgentBench旨在解决医疗领域中大语言模型智能体评估缺乏标准化基准的挑战。传统评测多侧重文本生成质量，难以刻画模型在复杂多轮对话中的工具使用、信息整合与临床推理能力，而医疗场景对准确性、可靠性和伦理合规性的严格要求使得评估维度更为复杂。在数据集构建过程中，团队面临两大核心挑战：一是如何设计真实反映临床诊疗流程的任务模板，确保对话的自然性与专业性；二是如何构建高保真的验证器，用以自动判定模型回复在医疗情境下的正确性，避免因语义模糊或领域偏差导致误判。此外，医疗数据的敏感属性对数据脱敏与隐私保护亦提出了严苛要求，进一步增加了构建难度。

常用场景

经典使用场景

在医学人工智能领域，MedAgentBench_Qwen2_5_Coder_32B_Instruct数据集为评估基于大语言模型的智能体在复杂临床任务中的表现提供了标准化的测试平台。该数据集涵盖了900条精心设计的对话轨迹，每条轨迹均记录了智能体与用户的多轮交互过程，并附带有任务类型、执行结果及验证器输出等关键元信息。研究者常利用该数据集对智能体在医疗诊断、治疗方案推荐、病历信息提取等场景下的推理与决策能力进行系统性评测，从而推动医学大语言模型从单纯的文本生成向具备自主行动能力的智能体方向演进。

实际应用

在实际医疗场景中，MedAgentBench_Qwen2_5_Coder_32B_Instruct数据集可用于训练和验证面向临床决策支持的智能体系统。例如，它能够模拟医生与患者的对话流程，测试智能体在病历摘要生成、用药安全提醒以及检验结果解读等环节的准确性。此外，该数据集还可服务于远程问诊平台，帮助开发能够主动追问病史、识别关键症状并给出初步建议的对话式AI助手，从而减轻临床工作者的负担，提升基层医疗服务的可及性与效率。

衍生相关工作

基于该数据集，学术界已衍生出多项具有启发性的研究工作。例如，有团队利用其中的对话轨迹构建了智能体行为预测模型，成功识别出导致任务失败的典型决策偏差；另有研究者通过对比不同基座模型在该数据集上的表现，提出了面向医学领域的提示工程优化策略，显著提升了智能体在工具调用和步骤规划方面的可靠性。此外，该数据集还催生了面向医疗智能体的解释性分析方法，通过分析验证器输出与最终结果的相关性，为构建可溯源的临床AI系统提供了方法论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集