MahmoodLab/viper

Name: MahmoodLab/viper
Creator: MahmoodLab
Published: 2026-05-07 07:24:44
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/MahmoodLab/viper

下载链接

链接失效反馈

官方服务：

资源简介：

VIPER是一个专家策划的基准数据集，用于评估视觉语言模型在兽医病理学中的应用。该数据集包含1,251个由专家策划的问题，覆盖419张H&E染色的大鼠组织学图像，涉及9个器官。所有问题均由获得委员会认证的兽医病理学家（ECVP）编写和验证。数据集旨在评估视觉语言模型在啮齿类动物毒理学病理学中的表现。README还详细介绍了数据集的组成、收集过程、评分方法、预处理步骤、许可和引用信息。

VIPER is an expert-curated benchmark for vision-language models in veterinary pathology. The dataset consists of 1,251 expert-curated questions over 419 H&E-stained rat histology images spanning 9 organs, designed to evaluate vision-language models in rodent toxicologic pathology. All questions were authored and validated by board-certified veterinary pathologists (ECVP). The README also provides detailed information on the datasets composition, collection process, scoring methods, preprocessing steps, licensing, and citation.

提供机构：

MahmoodLab

搜集汇总

数据集介绍

构建方式

VIPER数据集由资深兽医病理学家专家团队精心构建，旨在评估视觉语言模型在啮齿动物毒理学病理学领域的表现。该数据集源自两个公开许可的临床前毒理学资源：TG-GATEs（157项研究）和MMO（9项研究），从这些资源中提取了约1,000至5,000个候选兴趣区域，并利用TRACE嵌入技术进行聚类，每个器官最终形成20个形态学多样性簇。一位认证兽医病理学家从各簇中抽样以确保广泛的形态覆盖，并为每个兴趣区域撰写初始问题。随后，这些初始问题通过GPT-5.4扩展为多项选择、kprim和自由文本三种形式，并经过对抗性筛选以排除无图像可猜测的选项。所有最终问题及评分标准均经过病理学家的手动审查、修订或批准，确保了数据集的专家级质量和可靠性。

特点

VIPER数据集包含1,251个专家策划的问题，覆盖419张H&E染色的啮齿动物组织学图像，涉及9个器官系统。其问题类型丰富多样，包括419个多项选择题、414个kprim题和418个自由文本题，每种题型均配备独特的评分机制：多项选择题通过5次循环移位排列的平均准确率评分；kprim题采用ETH半分规则；自由文本题则依赖大语言模型作为判断，结合诊断准确性与回答完整性的加权分数。数据集涵盖7个问题类别，如解剖识别、过度解读探查、图像定位等，全面评估模型的视觉理解与推理能力。图像尺寸统一为1,024×1,024像素，采用H&E染色RGB格式，来自2.5倍、5倍和20倍三种放大倍数。

使用方法

用户可通过Hugging Face Datasets库轻松加载VIPER数据集，使用`load_dataset('MahmoodLab/viper')['test']`即可获取测试集。每个样本包含图像、问题文本、问题类型、答案、选项、器官和类别等字段。运行基准测试时，建议安装官方评估套件`viper-bench`，并通过命令行调用`viper-eval --model <model_name>`实现模型评分。数据集支持三种问题类型的独立评估与综合评分，其中多项选择题的准确率需计算5次循环移位排列的平均值。所有图像已去除EXIF和元数据，确保隐私安全。数据集以parquet格式存储，便于高效读取和处理，适用于视觉问答与多项选择任务的研究与开发。

背景与挑战

背景概述

VIPER数据集由哈佛大学医学院的Mahmood实验室等多家机构于2026年联合创建，核心研究团队涵盖兽医病理学、计算病理学与人工智能领域的顶尖学者。该数据集旨在系统评估视觉-语言模型在啮齿类动物毒性病理学中的诊断能力，填补了该领域缺乏专家级验证基准的空白。基于开放获取的TG-GATEs与MMO两大临床前毒理学数据库，数据集精选了419张苏木精-伊红染色的组织病理学图像，覆盖肾脏、肝脏等9种关键器官系统。所有1251道题目均由欧洲兽医病理学家学院认证专家亲自编制与审核，确保了数据集的权威性与临床相关性。该基准在NeurIPS数据集与基准研讨会上发布后，为兽医病理学自动化分析提供了可复现的评估框架，推动了多模态大模型在精准医学与药物安全性评价中的交叉应用。

当前挑战

VIPER数据集需要应对的核心挑战在于，兽医病理学的专业判断具有高度复杂性，传统图像分类任务难以捕捉组织学形态的细微病理差异与解剖变异。构建过程中，研究者首先面对的是从海量毒理学研究中提取高质量感兴趣区域的难题，需借助自监督嵌入与形态聚类筛选代表性图像，确保组织形态多样性。其次，问题生成环节引入了GPT系列模型辅助扩展开放式题目为多项选择与自由文本形式，但需设计对抗性过滤机制排除纯文本易猜解项，并通过专家逐条复核消除生成误差。此外，不同问题类型（MCQ、KPrim、自由文本）的评分规则各异，尤其是自由文本回答需要大语言模型作为评判进行语义精准度与完整性的复合评分，这种依赖大模型打分机制本身也构成了验证可靠性的潜在挑战。

常用场景

经典使用场景

VIPER数据集专为评估视觉-语言模型在兽医病理学领域的表现而设计，其经典使用场景包括对多模态大模型在毒理学病理诊断中的能力进行标准化测试。研究人员可通过加载数据集中的H&E染色大鼠组织学图像及配套的多选题、KPrim题和自由文本题，系统性地检验模型在九个器官系统上的解剖结构识别、病理特征定位、病变定量分析等七类核心任务的性能。该基准测试的独特之处在于题目由欧洲兽医病理学学会认证专家精心编写与验证，确保了评估内容的高临床相关性。

解决学术问题

在VIPER发布之前，兽医病理学领域缺乏一个经过领域专家严格审核的标准化基准来评估日益强大的视觉-语言模型。该数据集直接填补了这一空白，解决了如何客观、可重复地衡量AI模型在啮齿类动物毒理学病理学中的诊断准确性的关键学术难题。通过提供涵盖多器官、多题型、多难度层次的结构化测试集，VIPER使得研究者能够精确量化模型在解剖结构定位、病理变化识别、影像伪影检测等方面的能力，为计算机辅助病理诊断的发展提供了坚实的量化评估基础。

衍生相关工作

VIPER数据集的发布催生了多个前沿研究方向，包括开发专门针对病理图像的多模态大模型微调策略，以及设计更鲁棒的病理学知识嵌入方法。研究者基于该基准提出了对抗性过滤机制来降低文本先验的干扰，推动了基于LLM的自动评分器在自由文本病理学答案评判中的应用。此外，VIPER的题目生成流程——从专家标注种子问题到GPT辅助扩展与验证的级联管道——已成为构建高质量病理学评估数据集的范例模板，激励了更多针对不同物种和器官系统的专家级病理基准的创建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集