DCAgent2/medagentbench_SWE_agent_LM_32B_20260425_071557

Name: DCAgent2/medagentbench_SWE_agent_LM_32B_20260425_071557
Creator: DCAgent2
Published: 2026-04-25 13:47:41
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/medagentbench_SWE_agent_LM_32B_20260425_071557

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 51289303 num_examples: 900 download_size: 51149839 dataset_size: 51289303 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集名为medagentbench_SWE_agent_LM_32B_20260425_071557，源自MedAgentBench框架，专门用于评估医学领域中基于大型语言模型的智能代理系统在软件工程任务上的表现。数据集通过自动化流程构建，收集了32B参数规模的智能代理在多轮对话中的交互记录，每条样本包含完整的对话历史、任务描述、模型信息及执行结果。数据集的构建旨在模拟真实临床场景中代理逐步解决问题的过程，从而为医学人工智能系统的能力评估提供标准化基准。

特点

该数据集共计900条训练样本，涵盖了丰富的医学软件工程任务类型。每条样本均包含结构化的多轮对话内容（conversations），清晰标注了每一轮发言的角色（role）与内容（content），同时记录了执行代理的名称（agent）、使用的模型（model）及其提供商（model_provider）。此外，数据集还提供了任务定义（task）、实验轮次（episode）、运行标识（run_id）等元信息，并附有最终结果（result）与验证器输出（verifier_output），便于研究者深入分析智能代理的行为模式与决策质量。

使用方法

该数据集可直接用于训练或评估医学领域中的大型语言模型智能代理系统。用户可依据conversations字段中的对话序列，借助标准序列建模方法对代理的交互策略进行微调或评估。同时，通过筛选result与verifier_output字段，研究者可对不同模型或配置下的代理性能进行对比分析。建议在加载时关注train分片数据，并结合task字段对特定医学软件工程任务进行针对性实验，以推动医学人工智能代理的实用化发展。

背景与挑战

背景概述

在医疗领域，大规模语言模型（LLM）的应用正逐渐从通用对话转向专业化、可溯源的智能辅助决策。medagentbench_SWE_agent_LM_32B_20260425_071557数据集由研究团队于特定时间创建，专为评估医学智能体（Agent）在软件工程环境下的协作与推理能力而设计。该数据集聚焦于构建一个包含900个训练样本的结构化对话框架，每条记录涵盖角色、模型、任务、回合及校验结果等多元字段，旨在模拟真实临床中智能体执行复杂指令、验证输出可靠性的场景。通过标准化训练拆分和元数据记录，它为衡量32B参数级别模型在医学任务中的执行一致性与鲁棒性提供了基准，对推动医疗AI在可解释性与安全性方面的落地具有重要价值。

当前挑战

该数据集所解决的领域挑战主要体现在两方面。其一，医疗智能体面临处理开放性、多步骤任务的难题，如从模糊指令中提取关键信息、按流程生成准确回复并自主校验结果，现有模型常因缺乏结构化中间监督而出现逻辑断裂或错误累积；其二，构建过程中需应对数据稀疏性与标注一致性，900条样本需覆盖不同疾病、诊疗阶段及模型行为模式，同时确保角色对话的交互逻辑和校验标签的客观可靠。此外，多模型提供者、不同运行轮次与试次带来的变异性，要求数据集在有限规模内兼具任务复杂度与噪声控制，这对采样策略和质量审核流程提出了更高要求。

常用场景

经典使用场景

在医疗智能体系统蓬勃发展的当下，该数据集作为MedAgentBench基准测试的衍生产物，凝聚了32B参数级语言模型在软件工程导向的医疗智能体任务中的对话轨迹。其核心使用场景在于评估与训练具备医疗领域软件工程能力的智能体，研究焦点集中于智能体如何通过结构化对话完成诸如医疗信息检索、知识库维护、临床应用工具开发等任务。该数据集以细粒度的多轮对话形式记录了模型与环境交互的全过程，为医疗智能体在复杂任务中的决策链路与推理能力提供了丰富的实证素材，成为推动医疗领域自主智能体系统进化的重要测试床。

衍生相关工作

围绕该数据集，学术界已涌现出一系列具有引领性的衍生研究工作。部分研究者将其作为强化学习微调阶段的奖励信号源，通过最大似然估计修正智能体在复杂医疗任务中的探索偏差，显著提升了任务的首次尝试成功率。同时，该数据集也被广泛用于构建智能体行为克隆的基线模型，催生了多项关于医疗领域工具调用链语义对齐的开创性成果。另一些工作则致力于将其对话结构应用于元学习框架，使智能体能够在未见过的医疗软件任务中实现快速泛化。这些衍生工作共同构筑了医疗智能体从数据驱动到能力跃迁的完整知识链条，持续拓展着该领域的学术疆域。

数据集最近研究