five

DCAgent2/medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193733-traces

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193733-traces
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: tool_definitions list: - name: function struct: - name: description dtype: string - name: name dtype: string - name: parameters struct: - name: additionalProperties dtype: bool - name: properties struct: - name: code struct: - name: description dtype: string - name: type dtype: string - name: command struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: file_text struct: - name: description dtype: string - name: type dtype: string - name: insert_line struct: - name: description dtype: string - name: type dtype: string - name: is_input struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: message struct: - name: description dtype: string - name: type dtype: string - name: new_str struct: - name: description dtype: string - name: type dtype: string - name: old_str struct: - name: description dtype: string - name: type dtype: string - name: path struct: - name: description dtype: string - name: type dtype: string - name: security_risk struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: task_list struct: - name: description dtype: string - name: items struct: - name: additionalProperties dtype: bool - name: properties struct: - name: id struct: - name: description dtype: string - name: type dtype: string - name: notes struct: - name: description dtype: string - name: type dtype: string - name: status struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: title struct: - name: description dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: thought struct: - name: description dtype: string - name: type dtype: string - name: timeout struct: - name: description dtype: string - name: type dtype: string - name: view_range struct: - name: description dtype: string - name: items struct: - name: type dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 50478225 num_examples: 512 download_size: 50067342 dataset_size: 50478225 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193733-traces源于对医疗智能体交互过程的系统化追踪与记录。每条数据实例均包含完整的对话历史(conversations)、工具调用定义(tool_definitions)、任务标签(task)及运行元信息(如agent、model、run_id等),并通过verifier_output字段提供验证结果。数据以JSON格式组织,共512条训练样本,涵盖多轮工具型对话的细粒度结构,包括函数参数、枚举类型及嵌套对象,确保了交互过程的完整性与可复现性。
特点
该数据集的核心特点在于其高度结构化的工具交互设计。每条记录不仅包含角色交替的对话序列,还详细定义了函数调用的参数模式(如code、command、security_risk等),支持嵌套对象与枚举约束。此外,数据集通过episode、trial_name等字段追踪实验轨迹,并采用统一的verifier_output对模型输出进行客观校验,为医疗领域智能体的能力评估与优化提供了可靠基准。其512条实例的规模虽小,但每个样本均承载了丰富的工具使用与逻辑推理细节,适用于细粒度行为分析。
使用方法
该数据集适用于医疗场景下智能体系统的训练与评估。用户可直接加载JSON格式的train分片,通过解析conversations字段获取多轮对话状态,并利用tool_definitions还原工具调用上下文。建议结合verifier_output字段作为监督信号,优化模型的工具选择与参数生成能力。数据以HuggingFace Datasets库的默认配置存储,支持迭代式批处理,便于集成至微调或强化学习流水线中,尤其适合探索医疗领域受限环境下的自主推理与决策问题。
背景与挑战
背景概述
该数据集名为medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193733-traces,由NVIDIA研究团队于2025年4月创建,旨在评估和优化医疗领域大语言模型(LLMs)的智能体(Agent)能力。随着医疗大数据与人工智能的深度融合,构建能够理解复杂医学指令并执行多步推理的智能体系统成为研究热点。该数据集聚焦于模拟真实临床场景中,模型需调用外部工具(如代码执行、文件操作、任务管理等)来解决问题的过程,为评估医学AI智能体的规划、推理与工具调用能力提供了标准化基准。其影响力在于推动LLMs从静态问答向动态交互的范式转变,为医疗决策支持系统的实际部署奠定数据基础。
当前挑战
该数据集面临多维度挑战。在领域问题层面,医学场景对错误容忍度极低,要求智能体在诊断、治疗推荐等任务中具备高准确性与可解释性,而当前模型在复杂多步推理中易产生‘幻觉’或逻辑断裂。在构建过程中,数据标注需模拟真实医疗工作流,包括定义精确的函数参数(如路径、命令、安全风险)与任务依赖关系,确保工具调用的语义一致性;同时,512条训练样本需涵盖足够覆盖率的临床情景,避免过拟合,且需解决长对话上下文中的信息衰减与工具调用歧义问题,这对标注质量和场景多样性提出严苛要求。
常用场景
经典使用场景
在医疗人工智能的蓬勃发展中,大语言模型与外部工具的协同能力成为关键瓶颈,而medagentbench_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193733-traces数据集正是为攻克这一难题而生。该数据集聚焦于医疗领域智能体的推理轨迹,记录了模型在复杂医疗任务中调用工具、进行多轮对话的完整过程。其经典使用场景在于评估和训练医疗大语言模型的代理能力,涵盖从症状分析、诊疗建议到药物推荐等一系列临床情境。研究者可基于这些高保真的交互痕迹,剖析模型如何在信息检索、参数解析与决策生成之间建立有效连接,从而推动医疗AI从单纯的文本生成迈向具备行动力的智能体范式。
解决学术问题
该数据集的学术价值在于系统性地回应了如何评判和提升语言模型在医疗场景下的工具调用能力这一核心命题。传统评估多依赖静态问答对,难以反映模型与真实环境互动时的动态决策品质。medagentbench通过结构化记录模型在医疗任务中的每一步代理行为,为研究者提供了可复现的基准,从而量化分析模型在信息抽取、任务分解、安全校验等方面的表现。这一解决方案填补了医疗AI领域缺乏标准化代理行为评估数据的空白,其影响在于引导学界更加关注模型的可解释性与鲁棒性,促使后续研究从简单答案匹配转向对智能体推理链条的深层优化,推动医疗大模型走向更高水平的专业可信度。
衍生相关工作
围绕medagentbench数据集,学术界已衍生出一系列引人瞩目的前沿工作。一方面,研究者基于其细粒度的工具定义与对话记录,开发了针对医疗代理行为的评估指标体系,如工具调用准确率、任务完成率及安全合规指数,这些指标已被整合进多个开源评测框架中。另一方面,该数据集激发了关于多智能体协作的研究,探索如何通过多个专业代理共同处理综合性医疗任务,如药物交互分析与个性化方案生成。此外,数据集中丰富的安全风险标注促使了医疗AI安全对齐方向的发展,催生了面向医疗场景的红队测试与对抗性训练方法。这些衍生工作不仅拓展了数据集的学术影响力,更在全球范围内推动了可信医疗智能体生态的构建。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务