PathMMU

Name: PathMMU
Creator: 浙江大学
Published: 2024-03-21 01:13:53
License: 暂无描述

arXiv2024-03-21 更新2024-06-21 收录

下载链接：

https://pathmmu-benchmark.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

PathMMU是由浙江大学等机构创建的大型多模态病理学基准数据集，包含33,428个多模态多项选择题和24,067张来自不同来源的图像。数据集通过GPT-4V的先进能力，利用超过30,000对图像标题来丰富描述并生成相应的问题和答案。PathMMU旨在通过严格的专家验证，为大型多模态模型提供一个高质量的评估平台，以推动病理学领域的AI发展。

PathMMU is a large-scale multimodal pathology benchmark dataset developed by Zhejiang University and other institutions. It contains 33,428 multimodal multiple-choice questions and 24,067 images sourced from various origins. The dataset enriches image descriptions and generates corresponding questions and answers by leveraging the advanced capabilities of GPT-4V, with over 30,000 image-caption pairs employed. PathMMU aims to provide a high-quality evaluation platform for large multimodal models through rigorous expert validation, so as to promote the advancement of AI in the field of pathology.

提供机构：

浙江大学

创建时间：

2024-01-30

搜集汇总

数据集介绍

构建方式

PathMMU数据集的构建方式采用了三步数据处理和生成协议。首先，从PubMed、教育内容、图谱、社交媒体和专业病理分类数据集中收集图像和文本对，并进行预处理。然后，利用GPT-4V生成详细的病理图像描述，并用这些描述和图像生成专业多选多模态病理问答，每个问题都附有详细的答案解释。最后，邀请七名专业病理学家对验证集和测试集中的约12,000个问答进行手动审查，以确保其专业性和准确性。

特点

PathMMU数据集的特点在于其专业性和全面性。它包含来自多种权威来源的图像和问答，涵盖了多个器官系统和多个主题，并通过专家的严格审查和过滤来确保其质量。此外，每个问题都附有详细的答案解释，以提高答案的可解释性。PathMMU数据集是目前最大的病理数据集，可以全面评估大型多模态模型在病理图像理解和推理方面的能力。

使用方法

使用PathMMU数据集的方法包括评估大型多模态模型在病理图像理解和推理方面的能力，探索模型对图像损坏的鲁棒性，以及评估模型在病理领域的迁移学习能力。可以通过在训练集上微调模型，并在验证集和测试集上评估其性能来评估模型的能力。此外，还可以通过在测试集上添加不同类型的图像损坏来测试模型的鲁棒性。

背景与挑战

背景概述

随着人工智能技术在病理学领域的深入应用，大型多模态模型在病理图像理解和推理方面展现出巨大潜力。然而，缺乏高质量的专业基准数据集限制了这些模型的发展和精确评估。为了解决这一问题，PathMMU数据集应运而生。PathMMU是迄今为止规模最大、质量最高的经过专家验证的病理学基准数据集，包含33,428个多模态多选题和24,067张来自不同来源的图像，每个问题都附带对正确答案的解释。该数据集的构建利用了GPT-4V的高级功能，通过超过30,000个图像描述对进行丰富描述，并生成相应的Q&A。为了确保PathMMU的权威性，邀请了七位病理学家对每个问题进行严格审查。PathMMU的引入为病理学领域的人工智能模型评估提供了宝贵的资源，并推动了该领域的发展。

当前挑战

PathMMU数据集的构建和应用面临着一些挑战。首先，尽管先进的LMMs在PathMMU基准测试中取得了显著进展，但与人类病理学家相比，它们仍然存在显著的差距。这表明当前的LMMs在病理学领域的专业性和准确性方面仍有待提高。其次，PathMMU中的图像质量对模型的性能影响有限，这表明模型可能过度依赖于文本信息，而忽视了图像中的细节。最后，尽管在PathMMU上进行微调可以显著提高LMMs的性能，但生成解释并没有带来额外的性能提升。这表明如何有效地利用PathMMU中的解释信息来提高模型训练的效果仍然是一个未解决的问题。

常用场景

经典使用场景

PathMMU 数据集是一个专为大型多模态模型（LMMs）设计的病理学专家级基准数据集。该数据集包含 33,428 个多模态多选题和 24,067 张来自不同来源的病理图像，每个图像都附有对正确答案的解释。PathMMU 的构建利用了 GPT-4V 的先进能力，使用了超过 30,000 个图像-字幕对来丰富字幕并生成相应的问答。为了最大限度地提高 PathMMU 的权威性，我们邀请了七位病理学家对 PathMMU 的验证和测试集中的每个问题进行严格的审查，同时为 PathMMU 设置了专家级性能基准。我们对 14 个开源和 4 个闭源 LMMs 进行了广泛的评估，包括对其在图像损坏情况下的鲁棒性进行评估。我们还对具有代表性的 LMMs 进行了微调，以评估它们对 PathMMU 的适应性。实验结果表明，先进的 LMMs 在 PathMMU 基准测试中遇到了挑战，表现最出色的 LMM，GPT-4V，仅实现了 49.8% 的零样本性能，这显著低于人类病理学家所展现的 71.8%。经过微调，显著较小的开源 LMMs 可以超越 GPT-4V，但仍然无法达到病理学家所展现的专业水平。我们希望 PathMMU 将提供宝贵的见解，并促进更多专业化的下一代 LMMs 的发展。

实际应用

PathMMU 数据集在实际应用中具有广泛的应用场景。它可以帮助研究人员和开发人员评估和改进 LMMs 在病理图像理解和推理方面的能力。通过在 PathMMU 上进行实验，研究人员可以识别 LMMs 的优势和局限性，并开发新的算法和模型来提高其在病理学领域的性能。此外，PathMMU 还可以帮助病理学家提高他们的诊断技能。通过使用 PathMMU 进行训练和测试，病理学家可以学习如何更好地观察和分析病理图像，并提高他们的诊断准确性和效率。PathMMU 还可以促进病理学领域与人工智能技术的整合。通过将 LMMs 应用于 PathMMU，研究人员可以开发新的诊断工具和应用程序，从而改善患者护理并提高医疗保健系统的效率。

衍生相关工作

PathMMU 数据集的发布衍生了多项相关研究工作。首先，它为病理学领域提供了第一个大规模、高质量且经过专家验证的基准数据集，填补了该领域长期存在的空白。其次，PathMMU 的构建方法和评估结果为 LMMs 在病理学领域的应用提供了重要的参考。PathMMU 的发布也促进了病理学领域与人工智能技术的整合。通过将 LMMs 应用于 PathMMU，研究人员可以开发新的诊断工具和应用程序，从而改善患者护理并提高医疗保健系统的效率。此外，PathMMU 的发布还促进了 LMMs 在其他医学领域的应用。PathMMU 的构建方法和评估结果为 LMMs 在其他医学领域的应用提供了重要的参考，例如放射学和皮肤病学。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集