DCAgent2/medagentbench_OpenThinker3_7B_20260424_175122
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/medagentbench_OpenThinker3_7B_20260424_175122
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 38578832
num_examples: 880
download_size: 38386970
dataset_size: 38578832
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集源于对MedAgentBench基准测试中医疗智能体交互轨迹的系统性收集与整理。构建过程中,研究者首先利用OpenThinker3-7B模型作为推理引擎,在880个精心设计的医疗场景中执行任务,每个场景涉及多轮工具调用与决策推理。随后,通过结构化管线记录完整的对话历史、智能体身份标识、模型来源、运行时间戳及任务元数据,并由验证器(Verifier)对最终执行结果进行自动化评估,生成二值化的验证输出。数据以Parquet格式存储,包含10个字段,确保每条样本都具备可追溯性与可复现性。
使用方法
该数据集主要面向医疗领域大语言模型智能体的能力评估与微调研究。使用者可通过HuggingFace Datasets库以config_name='default'加载训练集,获取880条结构化的交互样本。在实践中,研究者可提取conversations字段构建监督式微调数据,用于训练模型在医疗场景下的工具调用与推理能力;亦可利用result与verifier_output字段作为自动评估信号,设计强化学习偏好对齐策略。建议在加载后依据task或agent字段进行分组分析,以探究不同模型或任务类型对推理效果的影响。
背景与挑战
背景概述
MedAgentBench是面向医疗领域智能体评估的基准数据集,由研究团队于2025年创建。该数据集聚焦于医疗场景下大语言模型作为智能体的交互能力评估,核心研究问题包括智能体在复杂医疗任务中的指令遵循、工具调用及多轮对话管理能力。其发布于HuggingFace平台,旨在推动医疗AI从简单问答向主动式、协作式智能体系统的演进。通过标准化评估框架,MedAgentBench为对比不同模型在医疗场景下的表现提供了统一基准,对智能体系统的医疗落地具有重要指导意义。
当前挑战
该数据集面临的挑战主要体现在两方面:在领域问题层面,医疗场景要求智能体具备高度可靠性和安全性,但现有模型在药物剂量计算、诊断推理等关键任务中仍存在错误率较高的问题;在构建过程中,需确保数据覆盖多科室、多病种及复杂临床路径,同时平衡专家标注成本与数据规模,且对话结构设计需兼顾真实医患交互的复杂性与评估的可量化性。
常用场景
经典使用场景
MedAgentBench是一个专为医学领域设计的智能体基准测试数据集,其经典使用场景在于评估和训练基于大语言模型的医疗智能体在复杂临床任务中的表现。该数据集包含了880条高质量的多轮对话样本,每条样本涵盖了任务描述、智能体角色、模型信息、运行记录和结果验证等结构化字段,能够全面考核智能体在医疗信息检索、病历分析、治疗方案推荐等典型临床场景中的推理与决策能力。研究者通常利用该数据集构建端到端的医疗智能体评估框架,通过对比不同模型在统一任务上的执行结果,衡量其在真实医疗环境中的实用性和可靠性。
解决学术问题
在学术研究层面,MedAgentBench重点解决了大语言模型在垂直医疗领域中缺乏标准化评估基准的难题。现有通用智能体评测多聚焦于日常场景或代码生成,难以有效衡量医疗场景下所需的专业术语理解、诊断推理严谨性及临床决策安全性。该数据集通过提供结构化的多轮任务对话、细粒度的验证输出和可复现的实验设计,使研究者能够系统性地比较不同模型在医疗任务中的准确率、鲁棒性和安全性。其意义在于推动了医疗大语言模型从基础语言能力向临床实用能力的转化研究,为构建可解释、可信赖的医学人工智能系统奠定了评估基础。
实际应用
在实际应用中,MedAgentBench数据集可被用于开发和测试面向医疗机构的人工智能辅助系统。例如,医院信息系统可基于该数据集训练的智能体实现自动化门诊导诊、病历摘要生成、药物相互作用提醒等功能,有效减轻医务人员的工作负担。此外,基于该数据集的评估结果,能够筛选出在诊断推理、医疗文书撰写等任务上表现优异的模型,并将其部署于远程医疗平台,为患者提供初步的健康咨询和疾病管理建议,从而提升医疗服务的可及性与效率。
数据集最近研究
最新研究方向
该数据集聚焦于医学领域智能体的交互推理能力评估与优化。涵盖880条训练样本,每条包含多轮对话记录、任务类型、执行结果及验证器输出,适用于构建可复现的医学决策模拟环境。当前前沿方向包括利用此类结构化交互数据训练具有临床推理能力的语言模型,推动AI在辅助诊断、治疗方案规划等环节的可靠落地。结合大语言模型在医疗场景中面临的安全性与幻觉问题,本研究为评估模型在复杂医学对话中的事实一致性提供基准,其影响在于促进可信医疗AI的标准化开发进程。
以上内容由遇见数据集搜集并总结生成



