QUILT-1M Pathology Dataset

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/DeepMicroscopy/QuiltCleaner

下载链接

链接失效反馈

官方服务：

资源简介：

QUILT-1M病理数据集，用于文本条件图像合成，包含多种图像杂质类别，如人物、窗口装饰、文本/徽标、质量不足的图像等。

The QUILT-1M pathology dataset is designed for text-conditioned image synthesis, encompassing a variety of image impurity categories such as figures, window decorations, text/logos, and images of insufficient quality.

创建时间：

2024-03-29

原始信息汇总

数据集概述

数据集名称

QUILT-1M Pathology Dataset

数据集描述

该数据集用于文本条件图像合成，已标注1%的数据用于识别常见的图像杂质，这些杂质可能影响图像生成质量。
提供了剩余99%数据的预测结果。
使用CONCH视觉-语言模型提供的文本-图像对齐分数。

数据集内容

标注了以下类别的图像：
- 叙述者/人物
- 桌面/窗口装饰/幻灯片查看器
- 文本/徽标
- 质量不足的图像
- 附加幻灯片概览
- 附加按钮/控制元素
- 多面板图像

数据集使用

提供了三个标注文件：
- train_annotations.csv：训练集（70%）
- val_annotations.csv：验证集（15%）
- test_annotations.csv：测试集（15%）
用户需单独下载QUILT-1M数据集，并将标注文件放置于本仓库的images文件夹中，使用提供的Train-QUILTCleaner.ipynb笔记本训练模型。

引用信息

@inproceedings{aubreville2024modelbased, title={Model-based Cleaning of the QUILT-1M Pathology Dataset for Text-Conditional Image Synthesis}, author={Marc Aubreville and Jonathan Ganz and Jonas Ammeling and Christopher C. Kaltenecker and Christof A. Bertram}, booktitle={Medical Imaging with Deep Learning}, url={https://openreview.net/forum?id=m7wYKrUjzV}, year={2024}, eprint={2404.07676}, archivePrefix={arXiv}, }

搜集汇总

数据集介绍

构建方式

QUILT-1M病理数据集的构建基于对原始QUILT_1M数据集的1%样本进行详细标注，涵盖了多种图像杂质类别，如包含人物、桌面装饰、文本或标志、图像质量不足、多面板图像等。这些标注旨在识别和处理在文本条件图像合成任务中可能影响生成质量的图像杂质。此外，研究团队还对剩余99%的数据集提供了预测结果，并使用CONCH视觉语言模型评估了文本与图像的对齐分数，从而为数据集的清洁和优化提供了全面的解决方案。

特点

QUILT-1M病理数据集的显著特点在于其专注于病理图像的杂质识别与处理，特别适用于文本条件图像合成任务。数据集不仅提供了详细的杂质类别标注，还包含了基于CONCH模型的文本图像对齐分数，为研究者提供了多维度的数据质量评估工具。此外，数据集的划分包括训练集、验证集和测试集，确保了模型训练与评估的科学性和系统性。

使用方法

使用QUILT-1M病理数据集时，用户需首先下载原始的QUILT_1M数据集，并将标注文件放置在指定的文件夹中。随后，可通过提供的训练笔记本（Train-QUILTCleaner.ipynb）进行模型训练，利用训练集、验证集和测试集进行模型选择和性能评估。数据集的标注文件以CSV格式提供，便于用户进行数据处理和分析，从而实现对病理图像杂质的高效识别与处理。

背景与挑战

背景概述

QUILT-1M Pathology Dataset是由Ikezogwo等人在NeurIPS 2023会议上提出的一个大规模病理图像数据集，旨在支持文本条件图像合成任务。该数据集的核心研究问题是如何在病理图像中有效去除影响图像生成的杂质，以提升文本与图像的对齐质量。Marc Aubreville等研究人员在2024年进一步对该数据集进行了模型驱动的清理工作，标注了1%的数据集样本，并提供了剩余99%数据的预测结果。这一工作不仅增强了数据集的质量，还为病理图像的文本条件生成提供了更为可靠的基础，对医学图像处理领域具有重要影响。

当前挑战

QUILT-1M Pathology Dataset在构建过程中面临多项挑战。首先，病理图像中常见的杂质类型多样，包括可见人物、窗口装饰、文本或标志、低质量图像等，这些杂质对文本条件图像合成的准确性构成了显著障碍。其次，数据集的标注工作复杂且耗时，尤其是需要对图像中的多种杂质进行细致分类。此外，如何确保清理后的数据集在文本与图像对齐任务中的有效性，也是一个重要的技术挑战。这些挑战不仅涉及数据处理的技术难题，还关系到病理图像在实际应用中的可靠性和准确性。

常用场景

经典使用场景

QUILT-1M病理数据集在文本条件图像合成领域中具有经典应用，主要用于训练和评估图像生成模型的质量。通过该数据集，研究者能够识别和清理图像中的杂质，如可见人物、窗口装饰、文本或标志等，从而提升生成图像与文本描述的一致性。此外，数据集还提供了文本与图像对齐的评分，进一步优化了模型的训练效果。

实际应用

在实际应用中，QUILT-1M病理数据集被广泛用于医疗图像处理和病理分析领域。通过该数据集，医疗专业人员可以训练和验证自动化的病理图像分析工具，从而提高诊断的准确性和效率。此外，该数据集还可用于开发基于文本描述的图像生成工具，为医疗教育和研究提供支持。

衍生相关工作

QUILT-1M病理数据集的发布催生了一系列相关研究工作，特别是在图像生成和病理分析领域。例如，基于该数据集的QuiltCleaner模型，通过模型驱动的清理方法，显著提升了文本条件图像合成的质量。此外，该数据集还激发了对多面板图像处理和文本图像对齐技术的深入研究，推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集