five

GasHisSDB|胃癌诊断数据集|医学图像分析数据集

收藏
arXiv2021-11-02 更新2024-06-21 收录
胃癌诊断
医学图像分析
下载链接:
https://gitee.com/neuhwm/GasHisSDB.git
下载链接
链接失效反馈
资源简介:
GasHisSDB是由东北大学等机构合作开发的胃癌组织病理学图像数据库,包含245,196张正常和异常的胃癌病理图像。数据集通过H&E染色技术获取,图像分为三个子数据库,分别对应不同的图像尺寸。该数据集旨在支持胃癌的计算机辅助诊断研究,特别是在弱监督学习领域,为研究人员提供了丰富的图像资源以探索新的诊断算法,从而辅助医生在临床实践中提高诊断效率和准确性。
提供机构:
东北大学
创建时间:
2021-06-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
GasHisSDB数据集的构建基于公开的胃癌病理图像数据库,由多位专家参与制作。数据集包含245,196张亚尺寸图像,分为正常和异常两类,旨在评估分类器的性能。数据集的准备过程包括从原始图像中裁剪出亚尺寸图像,并由经验丰富的病理学家进行校准。此外,数据集还进行了随机旋转和图像顺序打乱,以减少同源图像之间的相关性。
特点
GasHisSDB数据集的特点在于其包含了大量的亚尺寸病理图像,适用于弱监督学习。数据集中的每张图像都计算了三种不同的特征,包括颜色直方图、局部二值模式(LBP)和灰度共生矩阵(GLCM),这些特征为分类器的评估提供了丰富的信息。此外,数据集的公开性使得研究人员可以自由访问和使用,推动胃癌计算机辅助诊断算法的发展。
使用方法
GasHisSDB数据集的使用方法主要包括特征提取和分类器评估。研究人员可以利用数据集中的图像和特征,训练和测试不同的机器学习和深度学习分类器,如随机森林(RF)、线性支持向量机(linear SVM)、VGG16、ResNet50和ViT等。通过对比不同分类器在数据集上的表现,可以评估和优化算法,从而提高胃癌病理图像的分类准确性和诊断效率。
背景与挑战
背景概述
胃癌已成为全球第五大常见癌症,早期检测对于挽救生命至关重要。组织病理学检查是胃癌诊断的金标准,但由于公开可用的胃组织病理学图像数据集的稀缺性,计算机辅助诊断技术的评估面临挑战。为此,由东北大学、中国医科大学附属肿瘤医院等机构的研究人员组成的团队,于2021年开发了GasHisSDB数据集。该数据集包含245,196张胃组织病理学子图像,分为正常和异常两类,旨在评估分类器的性能。GasHisSDB的发布填补了这一领域的空白,为研究人员提供了宝贵的资源,推动了胃癌自动化诊断算法的发展。
当前挑战
GasHisSDB数据集在构建过程中面临多项挑战。首先,胃癌组织病理学图像的获取和标注需要高度专业化的知识和技能,确保数据的准确性和可靠性。其次,数据集的多样性和代表性对于训练有效的分类模型至关重要,但实际操作中往往难以达到理想的平衡。此外,由于图像尺寸较大,处理和存储这些图像对计算资源提出了高要求。最后,如何有效地提取和利用图像特征,以提高分类器的性能,是该数据集面临的另一大挑战。
常用场景
经典使用场景
在胃癌的计算机辅助诊断领域,GasHisSDB数据集被广泛用于评估不同分类器的性能。该数据集包含245,196张胃癌病理图像,分为正常和异常两类。通过使用传统机器学习和深度学习方法,研究人员能够比较不同分类器在图像分类任务中的表现,从而推动胃癌早期检测技术的发展。
实际应用
在临床实践中,GasHisSDB数据集的应用主要体现在胃癌的早期诊断和治疗决策支持。通过训练和验证的分类器,医生可以快速、准确地识别胃癌病理图像中的异常区域,从而辅助病理学家进行诊断。此外,该数据集还可用于开发和测试新的图像分析工具,进一步提升胃癌诊断的自动化水平。
衍生相关工作
基于GasHisSDB数据集,研究人员开发了多种图像分类算法,包括传统机器学习方法和深度学习模型。例如,随机森林和支持向量机在传统机器学习方法中表现优异,而卷积神经网络(如VGG16和ResNet50)和基于Transformer的模型(如ViT)在深度学习领域取得了显著成果。这些研究不仅提升了胃癌图像分类的准确性,还为其他病理图像分析任务提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GFS

数据来源采自美国国家环境预报中心的GFS(全球预报系统),该系统每天发布4次全球范围的气象数据,分辨率最高可达到0.25° x 0.25°。GFS数据提供FTP下载方式:https://nomads.ncep.noaa.gov/pub/data/nccf/com/gfs/。每次发布的数据保存在命名为gfs.YYYYMMDDHH的文件夹中。本次需要的数据精度为0.25°(0p25),所以数据的文件名为:gfs.t{ HH }z.pgrb2.0p25.f{ XXX }

地球大数据科学工程 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

长基线雷电密度24小时分布图

长基线雷电密度24小时分布图由长基线探测仪雷电探测数据加工制作而成,长基线探测仪雷电探测数据由分布在亚太地区的多个VLF电磁脉冲探测仪观测产生,本数据集数据产品制作时选取探测范围内24小时的长基线探测仪雷电探测数据计算雷电密度,并叠加探测范围内的地理信息进行制图,长基线雷电密度24小时分布图时间间隔为24小时,每日8时(北京时)分别生成一张,图片以JPEG方式存储,可用于每24小时闪电密度分布直观显示,供用户查看亚欧大陆、太平洋及印度洋大部分地区的雷电发生情况。

国家空间科学数据中心 收录

ConPR

ConPR数据集由首尔国立大学的机械工程系创建,专注于一个活跃的建筑工地,用于多会话地点识别。该数据集包含12个序列,每个序列捕捉不同日期的建筑进度,涵盖多种环境如车道、楼梯和狭窄的森林道路。数据集包括RGB图像、LiDAR点云数据和IMU数据,支持视觉和LiDAR基础的地点识别技术,并提供基于范围的地点识别评估的地面真实信息。该数据集旨在推动在动态和挑战性环境中的地点识别算法的发展。

arXiv 收录

DroneDeploy

DroneDeploy数据集,用于遥感影像分割 源地址:https://github.com/dronedeploy/dd-ml-segmentation-benchmark

AI_Studio 收录