DCAgent2/medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260425_071144
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260425_071144
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 47617542
num_examples: 897
download_size: 47410196
dataset_size: 47617542
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集基于医疗智能体领域的真实交互场景构建,旨在评估和微调大型语言模型在医疗任务中的推理与工具调用能力。数据通过NVIDIA Nemotron-3-Nano-30B-A3B-BF16模型在特定医疗环境中生成,记录了模型与用户的多轮对话,包含角色(role)、内容(content)等结构化字段。每个样本还关联了模型名称(model)、提供方(model_provider)、任务类型(task)、实验轮次(episode)及运行标识(run_id),最终通过验证器输出(verifier_output)和结果(result)对模型表现进行标注,形成完整的监督学习数据集。
特点
该数据集包含897个训练样本,以对话(conversations)为核心,每条样本中保存了完整的上下文交互历史,便于模型学习多步推理与工具使用。数据覆盖多种医疗任务(task),并按照不同实验轮次(episode)和试次(trial_name)组织,支持对模型在不同阶段的表现进行追踪。此外,验证器输出(verifier_output)提供了对模型回答的自动评估,结果字段(result)则给出了最终判定,兼具多样性与标注精确性,适合用于微调及评估医疗智能体模型的决策能力。
使用方法
数据集以标准格式存储,可直接通过HuggingFace Datasets库加载,使用train-*通配符匹配所有数据分片。使用时,开发者可将对话字段(conversations)作为输入,模型需根据用户角色(user)的指令生成相应的智能体回复(assistant)。结果字段(result)可作为监督信号用于训练,验证器输出(verifier_output)则可用于设计奖励模型或进行错误分析。建议配合NVIDIA Nemotron系列模型进行微调,以强化其在医疗场景下的任务执行与逻辑推理能力。
背景与挑战
背景概述
该数据集名为medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260425_071144,由NVIDIA研究团队于2025年创建,专注于医学领域智能体(Agent)的基准测试。核心研究问题在于评估和优化大语言模型在复杂医疗对话中的任务执行能力,涵盖多轮交互、信息检索与推理决策。该数据集的发布为医疗AI领域提供了标准化评测平台,推动了临床辅助决策、患者咨询等场景下模型性能的量化研究,对促进可信医疗大模型的发展具有重要影响。
当前挑战
当前挑战主要体现为三方面:首先,医疗领域数据的高敏感性与隐私保护要求,使得构建真实、多样化的对话场景面临伦理与法律障碍;其次,多轮对话中智能体需精准理解隐含的医学知识、处理歧义并保持逻辑连贯,这对模型的长期依赖与推理能力构成严峻考验;此外,数据集的标注成本高昂,且需确保不同医学子领域的覆盖均衡,避免模型产生偏见或过拟合特定疾病模式,这对构建过程的数据质量与规模提出了精细化管理难题。
常用场景
经典使用场景
MedAgentBench作为一个专为医疗领域智能体评估而设计的数据集,其经典使用场景聚焦于多轮对话下的医疗任务完成能力测试。该数据集收录了897条包含医生与患者交互的对话记录,每条数据均涵盖对话内容、角色标签、任务描述、结果评估等字段,为研究者提供了标准化的基准测试平台。借助这一资源,学术界能够系统性地评测语言模型在医疗咨询、病历整理、用药建议等复杂情境中的推理与决策表现,从而推动医疗人工智能在对话交互领域的深入发展。
衍生相关工作
MedAgentBench衍生了一系列相关研究,包括基于该数据集的模型微调策略优化、跨模型性能对比分析以及医疗对话安全性检测工作。例如,研究者利用其结构化标签训练出更鲁棒的医疗对话智能体,并探索了情境提示学习在临床决策中的应用。同时,该数据集也催生了医疗领域专用的评估指标与验证工具,如自动化对话质量评分系统。这些衍生工作共同推动了医疗人工智能从实验室研究向临床实践的转化,为该领域的后续创新奠定了重要基石。
数据集最近研究
最新研究方向
基于大型语言模型的多轮对话医疗智能体评估与优化
以上内容由遇见数据集搜集并总结生成



