five

临床巨核细胞数据集|医疗影像数据集|深度学习数据集

收藏
arXiv2025-02-12 更新2025-02-26 收录
医疗影像
深度学习
下载链接:
http://arxiv.org/abs/2502.08200v1
下载链接
链接失效反馈
资源简介:
本研究构建了一个包含11种不同巨核细胞亚型的综合临床数据集,用于巨核细胞的精细分类。数据集展现了明显的长尾分布特征,其中常见的巨核细胞亚型数据较多,而罕见亚型数据较少。该数据集的构建旨在通过深度学习技术对巨核细胞进行精确分类,解决传统方法在利用未标记数据和细胞图像中区分特征方面的局限性。
提供机构:
新疆大学软件工程学院, 中国乌鲁木齐
创建时间:
2025-02-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了应对骨髓涂片中巨核细胞分类所面临的挑战,该数据集采用了基于临床先验知识的细胞区域过滤、动态阈值调整的主动样本选择和基于原型的聚类方法。首先,利用高斯滤波和K-means聚类技术消除背景噪声,并使用HSV颜色空间分析提取细胞关键信息。其次,通过自适应样本选择机制,动态调整相似度阈值,以缓解类别不平衡的问题。最后,对标记样本进行原型聚类,以克服形态复杂性的挑战。实验结果表明,ActiveSSF不仅在分类性能上达到当前最佳水平,而且显著提高了罕见亚型的识别准确率。
特点
该数据集的特点在于其综合了主动学习和自监督预训练的优点,能够有效利用未标记数据,并在罕见亚型的识别上表现出色。此外,该数据集包含11种不同的巨核细胞亚型,能够更全面地反映其形态学变化。数据集的分布呈现明显的长尾现象,其中G-MK亚型最为常见,而CA-MK和HL-MK亚型相对较少,这为研究长尾分布问题提供了良好的数据基础。
使用方法
使用该数据集时,首先需要进行细胞区域过滤,包括高斯滤波、K-means聚类和HSV颜色空间分析等步骤。然后,通过ResNet网络提取特征并进行原型聚类,生成每个亚型的代表原型。最后,根据动态阈值调整机制进行样本选择,以缓解长尾分布问题。在整个过程中,需要不断调整参数以优化模型性能。
背景与挑战
背景概述
临床巨核细胞数据集的研究背景主要围绕巨核细胞的精确分类,这对于骨髓发育不良综合症(MDS)的早期诊断至关重要。随着深度学习在医学图像分析中的快速发展,其在医疗图像辅助诊断的准确性和效率方面取得了显著提升。然而,在染色切片中进行巨核细胞的自动分类仍然面临多个挑战,包括未充分利用大量未标记数据、细胞图像中有限的区分特征以及巨核细胞亚型之间的不平衡类别分布。为了解决这些问题,已经提出了各种基于深度学习的方法用于细胞分类,例如Su等人利用HSI颜色空间提取关键细胞特征并结合神经网络进行高效分类。尽管取得了这些进展,但有效利用未标记数据仍然是一个重大障碍。最近,自监督学习作为一种有前景的方法已经出现,它使模型能够从未标记数据中学习鲁棒的表示。本研究引入了一个全面的包含11种不同巨核细胞亚型的数据集,以实现对其形态变化的更完整表征。据我们所知,这是首次尝试将深度学习技术应用于巨核细胞亚型的细粒度分类。我们的分析表明,常规骨髓涂片扫描不仅包含各种非巨核细胞类型,还涉及广泛的背景区域,并且数据集表现出明显的长尾分布,其中某些亚型极为罕见。基于这些发现,我们提出了ActiveSSF,这是一个新型的自监督学习框架,它将主动学习策略整合到预训练阶段以增强模型性能。
当前挑战
临床巨核细胞数据集在构建过程中面临三个主要挑战:1)普遍存在的背景噪声,这会掩盖细胞细节;2)长尾分布限制了罕见亚型的数据;3)复杂的形态变化导致高类内变异性。为了解决这些问题,我们提出了ActiveSSF框架,该框架集成了主动学习和自监督预训练。具体来说,我们的方法采用高斯滤波与Kmeans聚类相结合,并辅以HSV分析和临床先验知识,以准确提取感兴趣区域;自适应样本选择机制,动态调整相似性阈值以减轻类别不平衡;以及基于标记样本的原型聚类,以克服形态复杂性。在临床巨核细胞数据集上的实验结果表明,ActiveSSF不仅实现了最先进的性能,而且显著提高了罕见亚型的识别准确率。此外,这些先进技术的整合进一步突显了ActiveSSF在临床环境中的实际潜力。为了促进进一步的研究,代码和数据集将在未来公开发布。
常用场景
经典使用场景
临床巨核细胞数据集在医学影像分析中具有广泛的应用,尤其在自监督学习中扮演着重要角色。该数据集包含了11种不同的巨核细胞亚型,为研究人员提供了丰富的样本资源,有助于深入探究巨核细胞的形态学特征。其经典使用场景包括但不限于:1. 自监督学习模型的预训练;2. 细胞图像的自动分类;3. 巨核细胞亚型的精细分类。
衍生相关工作
临床巨核细胞数据集的提出,为相关领域的研究提供了新的思路和方向。例如,基于该数据集,研究人员可以进一步探索自监督学习在医学影像分析中的应用,开发出更高效的模型。同时,数据集还可以用于研究巨核细胞的形态学特征,为临床诊断提供更丰富的参考依据。
数据集最近研究
最新研究方向
在临床巨核细胞分类领域,ActiveSSF框架的提出为解决长尾分布、背景噪声和形态学变异性等问题提供了新的解决方案。该框架结合了主动学习和自监督预训练,通过高斯滤波、K-means聚类和HSV分析等方法,实现了对细胞区域的精确提取。同时,自适应样本选择机制和原型聚类技术有效地缓解了类别不平衡问题,提高了对罕见亚型的识别准确性。ActiveSSF框架在临床巨核细胞数据集上的实验结果表明,其在分类性能上取得了显著的提升,为临床应用提供了强有力的支持。
相关研究论文
  • 1
    ActiveSSF: An Active-Learning-Guided Self-Supervised Framework for Long-Tailed Megakaryocyte Classification新疆大学软件工程学院, 中国乌鲁木齐 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

FROM-GLC全球30米地表覆盖数据集(2017)

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心 收录