five

Cancer-Net BCa|乳腺癌研究数据集|机器学习数据集

收藏
arXiv2023-04-12 更新2024-06-21 收录
乳腺癌研究
机器学习
下载链接:
https://www.kaggle.com/datasets/amytai/cancernet-bca
下载链接
链接失效反馈
资源简介:
Cancer-Net BCa是由滑铁卢大学视觉与图像处理实验室创建的多机构开放源基准数据集,专注于乳腺癌临床决策支持。该数据集包含253名乳腺癌患者的合成相关扩散成像(CDIs)体积图像,涵盖了详细的注释元数据,如病变类型、遗传亚型等。数据集通过美国放射学院成像网络(ACRIN)6698/I-SPY2研究收集,采用特定的四b值成像协议。Cancer-Net BCa旨在通过机器学习加速癌症治疗领域的进步,特别是在乳腺癌的诊断、预后/分级和治疗规划方面。
提供机构:
滑铁卢大学视觉与图像处理实验室
创建时间:
2023-04-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
Cancer-Net BCa数据集的构建基于多机构合作,通过美国放射学会影像网络(ACRIN)6698/I-SPY2研究,收集了253名乳腺癌患者在治疗前的合成相关扩散成像(CDIs)数据。这些数据来自10个机构,使用四b值成像协议(0 s/mm², 100 s/mm², 600 s/mm², 800 s/mm², 3-方向)在1.5或3.0特斯拉扫描仪上获取,像素间距范围为0.83 mm至2.08 mm,中位数为1.29 mm,切片厚度和切片间距范围为4.0至5.0 mm,中位数为4.0 mm。通过信号合成器混合原生和合成信号,最终生成CDIs信号。
特点
Cancer-Net BCa数据集的显著特点在于其多机构、多维度的数据来源和丰富的注释信息。该数据集不仅包含了患者的CDIs体积图像,还详细记录了病变类型、遗传亚型、MRI上的最长直径(MRLD)、Scarff-Bloom-Richardson(SBR)分级以及新辅助化疗后的病理完全缓解(pCR)状态。此外,数据集还分析了患者的人口统计和肿瘤多样性,揭示了潜在的偏差,如种族分布中白人占主导,年龄分布集中在30至70岁之间。
使用方法
Cancer-Net BCa数据集主要用于支持乳腺癌临床决策的计算机辅助诊断、预后分级、治疗规划等研究。研究人员可以利用该数据集进行机器学习模型的训练和验证,特别是针对CDIs图像的分析。由于数据集存在一定的偏差,建议在使用时采用数据采样、类别平衡和平衡损失函数等策略来处理不平衡问题。此外,评估基于此数据集开发的系统时,应考虑使用平衡的评估指标,如每个类别的精确度和召回率。
背景与挑战
背景概述
近年来,合成相关扩散成像(CDIs)作为一种新型磁共振成像(MRI)技术,在前列腺癌的临床决策支持中显示出显著优势。然而,其在乳腺癌中的应用尚未得到充分探索,且相关数据尚未公开。为推动基于CDIs的乳腺癌计算机辅助临床决策支持系统的发展,Waterloo大学的Vision and Image Processing Lab团队创建了Cancer-Net BCa数据集。该数据集包含来自10个机构的253名乳腺癌患者的CDIs体积图像,并附有详细的注释元数据,如病变类型、遗传亚型、MRI上的最长直径(MRLD)、Scarff-Bloom-Richardson(SBR)分级以及新辅助化疗后的病理完全缓解(pCR)状态。Cancer-Net BCa数据集的公开发布旨在加速机器学习在癌症临床决策支持中的应用,为全球抗击癌症贡献力量。
当前挑战
尽管Cancer-Net BCa数据集在推动乳腺癌临床决策支持方面具有重要意义,但其构建过程中仍面临诸多挑战。首先,数据集在种族和年龄分布上存在显著偏差,白人患者占比高达70.8%,而年轻和老年患者代表性不足。其次,遗传亚型和病变类型的分布不均,特别是SBR分级和pCR状态的分布严重不平衡,这可能导致模型训练中的偏差。此外,数据集的构建涉及多机构合作,确保数据质量和一致性是一个复杂的过程。为应对这些挑战,研究者建议采用数据采样、类别重平衡和平衡损失函数等策略,以提高模型的泛化能力和公平性。
常用场景
经典使用场景
Cancer-Net BCa数据集的经典使用场景主要集中在乳腺癌的临床决策支持系统中。通过提供多机构、多维度的合成相关扩散成像(CDIs)数据,该数据集支持研究人员开发和验证基于机器学习的诊断、预后评估、治疗规划等算法。这些算法能够帮助临床医生更准确地预测乳腺癌患者对新辅助化疗的反应,从而优化治疗方案。
衍生相关工作
Cancer-Net BCa数据集的发布催生了一系列相关研究工作。例如,基于该数据集的深度学习模型被开发用于预测乳腺癌的病理完全缓解状态,显著提高了预测的准确性。此外,研究人员还利用该数据集探索了不同种族和年龄群体在乳腺癌诊断和治疗中的差异,为解决数据偏见问题提供了新的视角。这些研究不仅推动了乳腺癌临床决策支持系统的发展,还为其他癌症类型的研究提供了借鉴。
数据集最近研究
最新研究方向
近年来,合成相关扩散成像(CDIs)作为一种新型磁共振成像(MRI)技术,在前列腺癌的临床决策支持中显示出显著优势。然而,其在乳腺癌中的应用尚未得到充分探索,且相关数据此前未公开。Cancer-Net BCa数据集的引入填补了这一空白,该数据集包含了来自十个机构的253名乳腺癌患者的CDIs体积图像,并附有详细的注释元数据,如病变类型、遗传亚型、MRI上的最长直径(MRLD)、Scarff-Bloom-Richardson(SBR)分级以及新辅助化疗后的病理完全缓解(pCR)状态。这一数据集的公开为乳腺癌的计算机辅助临床决策支持系统的开发提供了宝贵的资源,特别是在诊断、预后分级和治疗规划等领域。此外,数据集的多样性和潜在偏差分析也为未来的研究提供了重要的参考,特别是在处理数据不平衡和开发适应性算法方面。
相关研究论文
  • 1
    A Multi-Institutional Open-Source Benchmark Dataset for Breast Cancer Clinical Decision Support using Synthetic Correlated Diffusion Imaging Data滑铁卢大学视觉与图像处理实验室 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录