Virology Capabilities Test (VCT)
收藏arXiv2025-04-22 更新2025-04-25 收录
下载链接:
http://arxiv.org/abs/2504.16137v1
下载链接
链接失效反馈官方服务:
资源简介:
VCT是一个由数十位博士级别病毒学专家共同构建的大型语言模型基准测试,包含322个涵盖病毒学实验室实践工作中基础、内隐和视觉知识的多模态问题。这些问题旨在测试LLM对双用途病毒学实验室协议的故障排除能力,并对专家级别的病毒学知识进行验证。数据集由具有丰富经验的病毒学专家创建并审核,涵盖了实验故障排除、实验方法等多个方面,应用于评估大型语言模型在病毒学领域中的实际应用能力。
VCT is a large language model (LLM) benchmark jointly constructed by dozens of virologists holding doctoral degrees. It comprises 322 multimodal questions covering foundational, tacit, and visual knowledge in practical virology laboratory work. These questions are designed to test the troubleshooting capabilities of LLMs regarding dual-use virology laboratory protocols and validate expert-level virological knowledge. The dataset was created and reviewed by highly experienced virologists, covering multiple aspects such as experimental troubleshooting and experimental methodologies, and is applied to evaluate the practical application capabilities of large language models in the field of virology.
提供机构:
SecureBio, Center for Natural and Human Sciences, Federal University of ABC, Center for AI Safety, Media Lab, Massachusetts Institute of Technology
创建时间:
2025-04-22
搜集汇总
数据集介绍

构建方式
Virology Capabilities Test (VCT) 数据集的构建过程涉及数十位博士级病毒学专家的深度参与,通过多阶段严格筛选机制完成。研究团队采用定制化Airtable数据库管理系统,组织专家编写涵盖病毒学实验室核心技能的322道多模态问题。每道题目需经过双重同行评审、编辑润色和非专家测试三轮验证,确保问题符合“重要、困难、已验证、多模态”四大标准。专家贡献的题目需包含文本描述、4-10个非互斥判断陈述、10个互斥选项组合及评分细则等结构化组件,最终通过非专家可答性测试的题目纳入最终数据集。
使用方法
该数据集推荐采用多响应格式进行评估,要求模型从4-10个判断陈述中识别所有正确选项。基准测试显示,前沿多模态语言模型如OpenAI o3在该格式下达到43.8%准确率,超越94%的专家表现。使用者可通过三种形式利用该资源:直接运行多响应评估测量模型实操能力;转换为10选项单选题形式降低难度;或采用基于细则的开放式答案自动评分。为防范生物安全风险,数据集采用分级访问控制,核心部分仅向具备AI安全研究资质的机构开放。
背景与挑战
背景概述
Virology Capabilities Test (VCT) 是由SecureBio、联邦ABC大学自然与人文科学中心、AI安全中心以及麻省理工学院媒体实验室的研究团队于2025年推出的多模态病毒学问答基准测试。该数据集由数十位博士级病毒学专家参与构建,包含322道涵盖基础理论、隐性知识和视觉分析的多模态问题,旨在评估大型语言模型在病毒学实验室复杂协议故障排除方面的能力。VCT的独特价值在于其聚焦具有双重用途潜力的病毒学方法,填补了现有生物安全评估体系中实操性知识测评的空白,为衡量AI在生命科学领域的实际应用能力提供了重要标尺。
当前挑战
VCT面临的核心挑战体现在两个维度:在领域问题层面,需解决病毒学实验 troubleshooting 中隐性知识的标准化评估难题,这些问题往往无法通过简单网络搜索获得答案,专家平均正确率仅22.1%;在构建过程中,需平衡生物安全与科研价值,通过精心设计的材料筛选机制(如图2所示)排除明确危险内容,同时确保覆盖关键的双重用途技术。多模态问题的有效性验证也是重要挑战,部分图像依赖型问题可能被模型通过文本线索推测解决,这要求严格的专家评审流程来保证视觉信息的不可替代性。
常用场景
经典使用场景
Virology Capabilities Test (VCT) 数据集主要用于评估大型语言模型(LLM)在病毒学实验室协议中的实际应用能力。该数据集通过多模态问题(包括文本和图像)测试模型在解决复杂病毒学实验问题中的表现,例如实验故障排除和协议优化。这些问题的设计旨在模拟真实的实验室场景,要求模型具备深厚的领域知识和视觉分析能力。
解决学术问题
VCT 数据集解决了病毒学研究中几个关键的学术问题。首先,它填补了现有基准测试在测量实际实验室知识和隐性知识方面的空白。其次,该数据集通过多模态问题评估模型在真实实验室环境中的应用能力,而不仅仅是理论知识的掌握。此外,VCT 还关注具有双重用途潜力的病毒学方法,为生物安全风险评估提供了重要工具。
实际应用
在实际应用中,VCT 数据集可用于评估和改进AI模型在病毒学研究中的辅助能力。例如,模型可以通过该数据集学习如何帮助研究人员解决实验中的具体问题,如优化病毒培养条件或分析实验结果。此外,该数据集还可用于培训新一代的AI工具,使其能够为病毒学实验室提供更准确和实用的建议。
数据集最近研究
最新研究方向
随着人工智能在生物安全领域的深入应用,Virology Capabilities Test (VCT) 数据集已成为评估大型语言模型(LLMs)在病毒学实验室协议故障排除能力的重要基准。该数据集由数十位博士级病毒学专家构建,包含322个多模态问题,覆盖了病毒学实验室工作中必需的基础知识、隐性知识和视觉知识。前沿研究表明,最先进的LLMs(如OpenAI的o3模型)在VCT上的准确率达到43.8%,甚至超过了94%的专家病毒学家在其专业领域的表现。这一发现引发了关于LLMs在双重用途病毒学研究中潜在风险的广泛讨论,特别是在生物安全治理框架中如何整合这类能力的考量。VCT的推出不仅填补了现有生物安全评估工具的空白,也为衡量AI模型在复杂科学推理和实际实验室场景中的应用能力提供了新标准。
相关研究论文
- 1Virology Capabilities Test (VCT): A Multimodal Virology Q&A BenchmarkSecureBio, Center for Natural and Human Sciences, Federal University of ABC, Center for AI Safety, Media Lab, Massachusetts Institute of Technology · 2025年
以上内容由遇见数据集搜集并总结生成



