DCAgent2/medagentbench_SWE_Lego_Qwen3_8B_20260424_175125

Name: DCAgent2/medagentbench_SWE_Lego_Qwen3_8B_20260424_175125
Creator: DCAgent2
Published: 2026-04-25 10:39:51
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/medagentbench_SWE_Lego_Qwen3_8B_20260424_175125

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 134244627 num_examples: 754 download_size: 134103120 dataset_size: 134244627 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

MedAgentBench_SWE_Lego_Qwen3_8B数据集是基于医疗智能体评估框架MedAgentBench构建的专有数据集，旨在探索大语言模型在软件工程任务中的医疗领域应用能力。该数据集以Qwen3-8B模型为基座，通过SWE-Lego任务生成管线，模拟智能体在医疗软件工程场景下的交互过程。每条数据包含完整的对话记录（conversations），涵盖用户指令与智能体响应的多轮对话，同时标注了智能体身份（agent）、模型版本（model）、模型提供商（model_provider）、任务类型（task）、运行批次（episode）、唯一运行标识（run_id）以及执行结果（result）等元信息。构建过程注重任务真实性，结合验证器输出（verifier_output）对智能体行为进行自动化评估，从而形成高质量的监督微调样本。

特点

该数据集的核心特点在于其垂直领域与任务类型的双重特异性。首先，它聚焦医疗领域的软件工程任务，将智能体的代码生成、调试与修复能力置于高度专业化的医疗场景中检验，填补了现有数据集在医学软件工程方向的空白。其次，数据集以对话形式组织，每个样本包含多轮交互轨迹，能够有效训练模型理解上下文依赖的复杂指令。此外，数据规模虽仅754条训练样本，但每条样本均附带了丰富的结构化标签，包括任务类型、智能体角色和最终结果，便于研究者进行多维度分析与过滤。验证器输出的引入更确保了数据质量的可靠性，使得训练出的模型在医疗软件任务中的表现具有可追溯的评估基准。

使用方法

该数据集主要用于大语言模型在医疗领域软件工程任务上的监督微调（SFT）与性能评测。使用时，用户可直接通过HuggingFace Datasets库加载默认配置，读取训练集（split='train'）中的对话数据。每条数据的'conversations'字段提供了符合OpenAI格式的角色（role）与内容（content）对，可作为指令微调的标准输入格式。研究者可根据'agent'、'model'、'run_id'等字段过滤特定配置的样本，或利用'result'与'verifier_output'字段筛选成功或失败的轨迹用于对比学习。由于数据量较小，建议结合数据增强或混合通用领域数据集进行联合训练，以避免过拟合。输出模型可通过数据集内定义的医疗软件任务进行自动化评估，验证其在真实场景中的泛化能力。

背景与挑战

背景概述

在大型语言模型（LLM）驱动的智能体研究蓬勃发展的当下，医疗领域因其对推理准确性、任务合规性和环境交互安全性的严苛要求，成为评估智能体能力的关键战场。medagentbench_SWE_Lego_Qwen3_8B_20260424_175125数据集由研究团队于2025年4月创建，核心研究问题聚焦于如何系统性地评测医疗智能体在复杂软件工程环境中的多轮对话与任务执行能力。该数据集依托Qwen3-8B模型，通过结构化对话、代理（agent）行为记录及结果验证机制，为医疗智能体的鲁棒性、泛化性提供了标准化基准。其对相关领域的影响力体现在：首次将医疗决策与软件能力（如代码调试、系统操作）深度融合，推动了智能体在真实医疗工作流中的落地评估范式。

当前挑战

该数据集所解决的领域问题挑战在于，医疗智能体需同时应对高风险的临床推理、动态变化的患者数据以及软件工程环境的非确定性，传统基准难以模拟此类多源异构交互场景。构建过程中亦面临显著障碍：1）医疗对话与软件操作日志的联合采集需平衡隐私保护与数据完整性，导致高质量标注样本稀少；2）智能体在长链任务中易出现策略漂移，数据集需通过754条训练样本的有限规模，覆盖多样化的错误传播与恢复模式；3）结果验证（verifier_output）需设计可解释的自动化评估机制，以区分任务完成与欺骗性成功，这对语义一致性检测提出高要求。

常用场景

经典使用场景

在医疗人工智能领域，智能体（Agent）的自主决策与对话能力日益受到关注。medagentbench_SWE_Lego_Qwen3_8B_20260424_175125数据集以其精心设计的对话结构与任务驱动范式，成为评估和训练医疗智能体在复杂临床场景中执行多轮交互任务的经典资源。研究者利用该数据集中包含的‘conversations’字段，模拟医患对话、诊疗咨询或药物推荐等情境，从而对语言模型在信息检索、逻辑推理和上下文理解等方面的表现进行系统测评。通过将智能体输出的‘result’与‘verifier_output’进行比对，可以精准辨识模型的决策优劣，为医疗对话系统的优化提供坚实的数据基础。

实际应用

在实际医疗卫生场景中，该数据集可被用于开发智能导诊系统、在线健康咨询助手以及临床辅助决策工具。借助其中记录的智能体对话轨迹，开发者能够训练模型在真实的医疗咨询流程中做出恰当响应，例如根据患者主诉引导问诊、解释检验报告或提供用药建议。通过‘model’和‘model_provider’字段，还可以对比不同架构模型的部署效果，选择最具性价比的解决方案。此外，数据集中的‘date’信息有助于追踪模型在不同时间段的性能波动，对于产品迭代和维护具有直接的指导意义，进而提升医疗服务的效率与可及性。

衍生相关工作

围绕medagentbench_SWE_Lego_Qwen3_8B_20260424_175125这一数据资产，学界已衍生出一系列开创性的研究工作。基于其对话结构，研究者提出了针对医疗大模型的指令微调策略，通过优化‘conversations’中的角色轮换模式，显著提升了模型在长程对话中的一致性。另有一些工作利用‘verifier_output’作为奖励信号，设计了强化学习框架用于增强智能体的自我纠错能力。此外，‘task’与‘episode’的组合索引催生了细粒度的任务难度分析算法，为课程学习（Curriculum Learning）在医疗领域的应用提供了实证支持。这些衍生工作共同拓宽了医疗智能体研究的边界，推动了从基准评测到方法论创新的良性循环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集