VivaBench

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/chychiu/VivaBench

下载链接

链接失效反馈

官方服务：

资源简介：

VivaBench是一个医学问答数据集，包含来自PubMed的经过审核的数据和生成数据，大小在1K到10K条之间，遵循cc-by-sa-4.0许可。

创建时间：

2025-05-15

原始信息汇总

VivaBench数据集概述

数据集简介

名称：VivaBench
类型：多轮临床推理基准测试
规模：包含1,152个由医生策划的临床小案例
用途：模拟口头考试(viva voce)，评估大型语言模型在临床推理中的表现

核心特点

模拟真实临床场景：要求代理逐步收集病史和体检结果，进行诊断
多轮交互设计：支持迭代式信息收集和推理过程
结构化评估：提供完整的评估指标和流程

技术配置

配置文件：
- configs/evaluate.yaml：包含数据输入输出路径、批量大小、模型参数等
- configs/generate.yaml：包含流水线参数、嵌入映射、生成模型配置等
支持模型：
- 通过init_chat_model、init_openrouter_chat_model或init_ollama_chat_model实例化

使用方式

评估流程

bash vivabench evaluate --config configs/evaluate.yaml [--input /path/to/my_input.csv] [--output_dir /path/to/outdir] [--evaluation_id id_of_evaluation_run]

指标重计算

bash vivabench metrics --config configs/evaluate.yaml --output_csv /path/to/results/full_results.csv [--output_dir /path/to/metrics_out]

案例生成

bash vivabench generate --config configs/generate.yaml [--input /path/to/seed_vignettes.csv] [--output /path/to/generated.csv]

引用信息

bibtex @article{vivabench2025, title = {Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models}, author = {Anonymous Author(s)}, journal = {}, year = {2025}, }

许可信息

许可证：CC-NA License
贡献：欢迎通过issue或pull request参与贡献

搜集汇总

数据集介绍

构建方式

VivaBench数据集的构建基于临床医学领域的实际需求，通过模拟口试（viva voce）形式评估大型语言模型的临床推理能力。该数据集包含1,152个由医师精心设计的临床案例，采用多轮对话机制，要求模型逐步收集病史与体格检查结果，并安排相应检查以最终确定诊断。构建过程中，研究者通过严格的流程设计确保案例的多样性和真实性，同时利用YAML配置文件灵活调整数据输入、模型参数及评估指标，为后续研究提供了可扩展的框架。

使用方法

使用VivaBench需通过命令行接口调用预置的评估流程，配置文件中可指定输入数据路径、输出目录及模型参数。评估过程自动执行案例解析、并行化测试及结果统计，生成包含准确率、召回率等指标的详细报告。对于案例扩展需求，生成管道支持从种子案例自动衍生新数据，研究者亦可复用现有结果重新计算特定指标。Jupyter Notebook演示文件为快速入门提供了直观指导，整个框架采用CC-NA许可协议开放协作。

背景与挑战

背景概述

VivaBench数据集由医学领域的研究团队于2025年推出，旨在通过模拟临床口试（viva voce）场景，评估大型语言模型在临床推理任务中的表现。该数据集包含1,152个由医师精心设计的临床案例，要求模型通过多轮交互收集病史与体格检查结果，并最终做出诊断。其创新性在于将传统医学教育中的口试形式转化为可量化的评估框架，为人工智能在临床决策支持系统中的应用提供了重要基准。该数据集的建立标志着医学人工智能领域从静态问答向动态交互评估的重要转变，对提升模型在真实医疗场景中的实用性具有深远影响。

当前挑战

VivaBench数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确评估模型在开放式临床推理中的表现，这涉及到对医学知识深度理解、多轮对话逻辑连贯性以及诊断决策合理性的综合考量；在构建过程中，医师团队需要平衡案例的临床代表性与评估难度，确保既能反映真实医疗场景的复杂性，又能形成标准化的评估指标。此外，数据集的动态交互特性对评估框架的设计提出了更高要求，包括对话状态跟踪、信息增量处理以及诊断路径合理性判断等关键技术难题。

常用场景

经典使用场景

在医学教育和临床推理研究领域，VivaBench数据集通过模拟真实的口头临床考试场景，为评估大型语言模型在临床推理中的表现提供了标准化测试平台。研究者可利用其包含的1,152个临床案例，系统性地测试模型在病史采集、检查结果解读及最终诊断等环节的推理能力。这种多轮交互式评估框架，尤其适合检验模型在动态医疗决策过程中的逻辑连贯性和知识准确性。

解决学术问题

该数据集有效解决了医学人工智能领域的关键挑战——如何量化评估模型在复杂临床场景中的推理能力。通过标准化考试流程和医师评审的黄金标准，研究者能够客观比较不同模型在鉴别诊断、检查项目选择等核心临床技能上的表现，填补了传统静态医疗问答数据集无法模拟动态医患交互的空白，为医疗大模型的循证评估提供了方法论基础。

实际应用

在医学教育智能化转型中，VivaBench可作为AI辅助教学系统的核心评估工具。医学院校可基于该数据集构建虚拟考官系统，用于医学生的临床思维训练；医疗科技企业则能利用其验证诊断辅助系统的可靠性。其模块化设计还支持扩展至专科医师考核、远程医疗咨询质量评估等场景，推动临床决策支持系统向更高阶的推理能力发展。

数据集最近研究