five

LC25000|医学图像分析数据集|图像分类数据集

收藏
github2024-07-25 更新2024-07-27 收录
医学图像分析
图像分类
下载链接:
https://github.com/GeorgeBatch/LC25000-clean
下载链接
链接失效反馈
资源简介:
LC25000数据集是一个用于组织学图像分类的大规模数据集。它包含25000张图像(从WSI图像中提取的补丁),每类5000张图像。该数据集通过以下增强方式扩展到25,000张图像:左右旋转(最多25度,1.0概率)以及水平和垂直翻转(0.5概率)。
创建时间:
2024-07-17
原始信息汇总

LC25000-clean 病理学基准数据集

数据集概述

LC25000-clean 数据集是一个用于病理学图像分类的大型数据集,包含 25000 张图像(从全切片图像中提取的补丁),每类 5000 张图像。该数据集旨在通过清理和分组高度相关的图像来减少模型性能的过高估计。

数据集内容

  • 清理后的数据集:包含高度相关图像的分组。
  • 半自动清理管道代码:用于清理和分组图像。
  • 评估代码:用于使用清理后的数据集作为新病理学基础模型的最小设置基准。

数据集结构

数据集的目录结构如下:

LC25000-clean (本仓库) README.md annotations/ ... LC25000/ lung_aca/ lungaca1.jpg lungaca2.jpg ... lung_n/ lungn1.jpg lungn2.jpg ... lung_scc/ lungscc1.jpg lungscc2.jpg ... colon_aca/ colonaca1.jpg colonaca2.jpg ... colon_n/ colonn1.jpg colonn2.jpg ...

数据集下载

可以从官方 GitHub 仓库或 HuggingFace 下载 LC25000 数据集。

数据集清理流程

  1. 特征提取:使用预训练的 UNI 模型从 LC25000 数据集的每个类别中提取特征,并保存为 features.npy 文件。
  2. 聚类和手动标注:使用 scikit-learn 的 KMeans 聚类算法对提取的特征进行聚类,并手动比较样本与代表图像,以确定其归属。
  3. 特征评估:使用手动标注作为基准,评估特征的质量,包括检索指标、二元连接性指标和聚类指标。

数据集评估

  • 检索指标:precision@1, precision@5
  • 二元连接性指标:混淆矩阵、准确率、精确率、召回率、F1 分数、特异性、平衡准确率
  • 聚类指标:Fowlkes-Mallows 指数、调整兰德指数(ARI)、归一化互信息(NMI)、同质性、完整性、V-Measure

分类实验

使用清理后的数据集进行分类实验,以了解数据集污染对性能的影响。实验设置包括不同数据集版本、训练/测试分割比例、特征提取器和分类器。

新模型评估

要评估新模型,请按照以下步骤操作:

  1. 下载数据并设置环境。
  2. 准备模型并提取特征。
  3. 使用 evaluate_clustering.py 脚本评估特征。
  4. 使用 4-analyze-clustering-results.ipynb 笔记本分析评估结果。
  5. 使用 5-one-shot-and-linear-probing.ipynb 笔记本运行分类实验。
AI搜集汇总
数据集介绍
main_image_url
构建方式
LC25000数据集的构建基于从肺和结肠样本中提取的组织图像切片。原始数据集包含了25000张图像,这些图像通过随机旋转和翻转从原始的750张图像中生成。为了解决数据泄露问题,研究团队开发了一个半自动化的清洗管道,通过使用最新的组织病理学基础模型进行聚类和手动校正,将相同切片的增强图像进行分组,从而创建了一个清洗后的LC25000数据集。
特点
LC25000数据集的主要特点在于其大规模和多样性,涵盖了肺和结肠的多种组织类型。清洗后的数据集通过减少数据泄露的风险,提高了模型性能评估的准确性。此外,该数据集还包含了详细的特征提取和聚类方法,为研究人员提供了一个标准化的基准,用于评估组织图像特征的质量。
使用方法
使用LC25000数据集时,首先需要下载并设置环境,然后通过预训练的UNI模型提取特征。接着,使用scikit-learn的KMeans算法进行聚类,并通过手动注释进一步优化。最后,可以使用评估脚本对特征进行评估,包括检索指标和聚类指标。此外,数据集还提供了分类实验的设置,帮助研究人员理解数据集污染对模型性能的影响。
背景与挑战
背景概述
LC25000数据集是一个广泛应用于组织病理学图像分类的大型数据集,由25000张图像组成,每类包含5000张图像。该数据集由Borkowski等人于2019年创建,通过从肺和结肠样本中提取组织图像块,并使用数据增强技术扩展至25000张图像。LC25000数据集在深度学习领域具有重要影响力,特别是在评估和改进基于深度学习的组织病理学框架方面。然而,由于数据泄露问题,许多研究报告的准确率存在高估现象,这促使研究人员开发了一种半自动化的数据清洗管道,以创建一个更清洁的LC25000版本,从而更准确地评估模型性能。
当前挑战
LC25000数据集面临的主要挑战包括数据泄露问题,即增强图像在训练和测试集之间的不恰当分配,导致模型性能的高估。此外,数据集的构建过程中,如何有效地进行图像增强和数据分割,以确保数据集的多样性和代表性,也是一个重要问题。为了解决这些问题,研究人员提出了基于组织病理学基础模型的半自动化清洗管道,并通过聚类和手动校正来分离增强图像,从而创建一个更清洁的数据集版本。这一过程不仅提高了数据集的质量,还为评估组织病理学基础模型的特征提取能力提供了一个基准。
常用场景
经典使用场景
LC25000数据集在病理学图像分类领域中被广泛应用,尤其是在评估基础模型在少样本组织聚类任务中的性能。该数据集通过从肺和结肠样本中提取的组织图像块,为研究人员提供了一个标准化的基准。经典使用场景包括使用该数据集进行特征提取和聚类分析,以验证和改进病理学基础模型的性能,特别是在处理数据泄露问题时,确保模型评估的准确性和可靠性。
实际应用
在实际应用中,LC25000数据集被用于开发和验证病理学图像分析工具,这些工具在癌症诊断和治疗中具有重要应用。通过使用该数据集,医疗专业人员可以更准确地识别和分类组织样本,从而提高诊断的准确性和治疗方案的个性化。此外,该数据集还支持在临床环境中进行快速且准确的病理学评估,有助于提升医疗服务的质量和效率。
衍生相关工作
LC25000数据集的发布和清理工作衍生了一系列相关研究,包括使用该数据集进行特征提取和聚类分析的多种方法。这些研究不仅提升了病理学基础模型的性能,还推动了相关领域的技术进步。例如,基于该数据集的研究成果已被应用于开发新的病理学图像分析算法和工具,进一步促进了病理学领域的技术创新和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国30米分辨率土壤可蚀性因子数据集

该数据集为2018年中国30米分辨率土壤可蚀性因子(K)栅格数据,数据是利用中国1979-1994年的全国第二次土壤普查的成果数据进行计算;再利用径流小区观测数据修正计算结果;将修订结果利用反距离权重插值法插值生成栅格数据。特殊地类河湖库塘、冰川及永久积雪、裸岩土地类型K因子值强制赋值为0。如果用户采用的土地利用精度较高,建议重新对以下土地类型的K因子强制赋值为0:河湖库塘、冰川及永久积雪、裸岩。如果有K值为0,但不属于上述类型的,K因子可按如下原则:取邻近相同土地类型图斑的K值,或取与该图斑邻近且不等于0的所有图斑K值的平均值。

国家地球系统科学数据中心 收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录