LC25000

github2024-07-25 更新2024-07-27 收录

下载链接：

https://github.com/GeorgeBatch/LC25000-clean

下载链接

链接失效反馈

官方服务：

资源简介：

LC25000数据集是一个用于组织学图像分类的大规模数据集。它包含25000张图像（从WSI图像中提取的补丁），每类5000张图像。该数据集通过以下增强方式扩展到25,000张图像：左右旋转（最多25度，1.0概率）以及水平和垂直翻转（0.5概率）。

The LC25000 dataset is a large-scale dataset for histopathological image classification. It contains 25,000 images (patches extracted from WSI images), with 5,000 images per category. This dataset is expanded to 25,000 images via the following augmentation strategies: random rotation within ±25 degrees with a probability of 1.0, as well as horizontal and vertical flipping with a probability of 0.5.

创建时间：

2024-07-17

原始信息汇总

LC25000-clean 病理学基准数据集

数据集概述

LC25000-clean 数据集是一个用于病理学图像分类的大型数据集，包含 25000 张图像（从全切片图像中提取的补丁），每类 5000 张图像。该数据集旨在通过清理和分组高度相关的图像来减少模型性能的过高估计。

数据集内容

清理后的数据集：包含高度相关图像的分组。
半自动清理管道代码：用于清理和分组图像。
评估代码：用于使用清理后的数据集作为新病理学基础模型的最小设置基准。

数据集结构

数据集的目录结构如下：

LC25000-clean (本仓库) README.md annotations/ ... LC25000/ lung_aca/ lungaca1.jpg lungaca2.jpg ... lung_n/ lungn1.jpg lungn2.jpg ... lung_scc/ lungscc1.jpg lungscc2.jpg ... colon_aca/ colonaca1.jpg colonaca2.jpg ... colon_n/ colonn1.jpg colonn2.jpg ...

数据集下载

可以从官方 GitHub 仓库或 HuggingFace 下载 LC25000 数据集。

数据集清理流程

特征提取：使用预训练的 UNI 模型从 LC25000 数据集的每个类别中提取特征，并保存为 features.npy 文件。
聚类和手动标注：使用 scikit-learn 的 KMeans 聚类算法对提取的特征进行聚类，并手动比较样本与代表图像，以确定其归属。
特征评估：使用手动标注作为基准，评估特征的质量，包括检索指标、二元连接性指标和聚类指标。

数据集评估

检索指标：precision@1, precision@5
二元连接性指标：混淆矩阵、准确率、精确率、召回率、F1 分数、特异性、平衡准确率
聚类指标：Fowlkes-Mallows 指数、调整兰德指数（ARI）、归一化互信息（NMI）、同质性、完整性、V-Measure

分类实验

使用清理后的数据集进行分类实验，以了解数据集污染对性能的影响。实验设置包括不同数据集版本、训练/测试分割比例、特征提取器和分类器。

新模型评估

要评估新模型，请按照以下步骤操作：

下载数据并设置环境。
准备模型并提取特征。
使用 evaluate_clustering.py 脚本评估特征。
使用 4-analyze-clustering-results.ipynb 笔记本分析评估结果。
使用 5-one-shot-and-linear-probing.ipynb 笔记本运行分类实验。

搜集汇总

数据集介绍

构建方式

LC25000数据集的构建基于从肺和结肠样本中提取的组织图像切片。原始数据集包含了25000张图像，这些图像通过随机旋转和翻转从原始的750张图像中生成。为了解决数据泄露问题，研究团队开发了一个半自动化的清洗管道，通过使用最新的组织病理学基础模型进行聚类和手动校正，将相同切片的增强图像进行分组，从而创建了一个清洗后的LC25000数据集。

特点

LC25000数据集的主要特点在于其大规模和多样性，涵盖了肺和结肠的多种组织类型。清洗后的数据集通过减少数据泄露的风险，提高了模型性能评估的准确性。此外，该数据集还包含了详细的特征提取和聚类方法，为研究人员提供了一个标准化的基准，用于评估组织图像特征的质量。

使用方法

使用LC25000数据集时，首先需要下载并设置环境，然后通过预训练的UNI模型提取特征。接着，使用scikit-learn的KMeans算法进行聚类，并通过手动注释进一步优化。最后，可以使用评估脚本对特征进行评估，包括检索指标和聚类指标。此外，数据集还提供了分类实验的设置，帮助研究人员理解数据集污染对模型性能的影响。

背景与挑战

背景概述

LC25000数据集是一个广泛应用于组织病理学图像分类的大型数据集，由25000张图像组成，每类包含5000张图像。该数据集由Borkowski等人于2019年创建，通过从肺和结肠样本中提取组织图像块，并使用数据增强技术扩展至25000张图像。LC25000数据集在深度学习领域具有重要影响力，特别是在评估和改进基于深度学习的组织病理学框架方面。然而，由于数据泄露问题，许多研究报告的准确率存在高估现象，这促使研究人员开发了一种半自动化的数据清洗管道，以创建一个更清洁的LC25000版本，从而更准确地评估模型性能。

当前挑战

LC25000数据集面临的主要挑战包括数据泄露问题，即增强图像在训练和测试集之间的不恰当分配，导致模型性能的高估。此外，数据集的构建过程中，如何有效地进行图像增强和数据分割，以确保数据集的多样性和代表性，也是一个重要问题。为了解决这些问题，研究人员提出了基于组织病理学基础模型的半自动化清洗管道，并通过聚类和手动校正来分离增强图像，从而创建一个更清洁的数据集版本。这一过程不仅提高了数据集的质量，还为评估组织病理学基础模型的特征提取能力提供了一个基准。

常用场景

经典使用场景

LC25000数据集在病理学图像分类领域中被广泛应用，尤其是在评估基础模型在少样本组织聚类任务中的性能。该数据集通过从肺和结肠样本中提取的组织图像块，为研究人员提供了一个标准化的基准。经典使用场景包括使用该数据集进行特征提取和聚类分析，以验证和改进病理学基础模型的性能，特别是在处理数据泄露问题时，确保模型评估的准确性和可靠性。

实际应用

在实际应用中，LC25000数据集被用于开发和验证病理学图像分析工具，这些工具在癌症诊断和治疗中具有重要应用。通过使用该数据集，医疗专业人员可以更准确地识别和分类组织样本，从而提高诊断的准确性和治疗方案的个性化。此外，该数据集还支持在临床环境中进行快速且准确的病理学评估，有助于提升医疗服务的质量和效率。

衍生相关工作

LC25000数据集的发布和清理工作衍生了一系列相关研究，包括使用该数据集进行特征提取和聚类分析的多种方法。这些研究不仅提升了病理学基础模型的性能，还推动了相关领域的技术进步。例如，基于该数据集的研究成果已被应用于开发新的病理学图像分析算法和工具，进一步促进了病理学领域的技术创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集