Tiburoncin/mom-cancer2
收藏Hugging Face2024-07-07 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Tiburoncin/mom-cancer2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个与医学诊断相关的特征,如半径、纹理、周长、面积等,这些特征可能是用于肿瘤诊断的指标。数据集分为训练集和测试集,训练集包含398个样本,测试集包含171个样本。
This dataset includes multiple features related to medical diagnosis, such as radius, texture, perimeter, area, etc., which may be indicators used for tumor diagnosis. The dataset is divided into a training set and a test set, with the training set containing 398 samples and the test set containing 171 samples.
提供机构:
Tiburoncin
原始信息汇总
数据集概述
特征信息
- id: 数据记录的唯一标识符,数据类型为
int64。 - diagnosis: 诊断结果,数据类型为
string。 - radius_mean: 平均半径,数据类型为
float64。 - texture_mean: 平均纹理,数据类型为
float64。 - perimeter_mean: 平均周长,数据类型为
float64。 - area_mean: 平均面积,数据类型为
float64。 - smoothness_mean: 平均平滑度,数据类型为
float64。 - compactness_mean: 平均紧密度,数据类型为
float64。 - concavity_mean: 平均凹度,数据类型为
float64。 - concave points_mean: 平均凹点,数据类型为
float64。 - symmetry_mean: 平均对称性,数据类型为
float64。 - fractal_dimension_mean: 平均分形维数,数据类型为
float64。 - radius_se: 半径的标准误差,数据类型为
float64。 - texture_se: 纹理的标准误差,数据类型为
float64。 - perimeter_se: 周长的标准误差,数据类型为
float64。 - area_se: 面积的标准误差,数据类型为
float64。 - smoothness_se: 平滑度的标准误差,数据类型为
float64。 - compactness_se: 紧密度的标准误差,数据类型为
float64。 - concavity_se: 凹度的标准误差,数据类型为
float64。 - concave points_se: 凹点的标准误差,数据类型为
float64。 - symmetry_se: 对称性的标准误差,数据类型为
float64。 - fractal_dimension_se: 分形维数的标准误差,数据类型为
float64。 - radius_worst: 最差半径,数据类型为
float64。 - texture_worst: 最差纹理,数据类型为
float64。 - perimeter_worst: 最差周长,数据类型为
float64。 - area_worst: 最差面积,数据类型为
float64。 - smoothness_worst: 最差平滑度,数据类型为
float64。 - compactness_worst: 最差紧密度,数据类型为
float64。 - concavity_worst: 最差凹度,数据类型为
float64。 - concave points_worst: 最差凹点,数据类型为
float64。 - symmetry_worst: 最差对称性,数据类型为
float64。 - fractal_dimension_worst: 最差分形维数,数据类型为
float64。 - Unnamed: 32: 未命名字段,数据类型为
float64。
数据集划分
- train: 训练集,包含 398 条数据,占用 103928.36 字节。
- test: 测试集,包含 171 条数据,占用 44652.64 字节。
数据集大小
- 下载大小: 168035 字节。
- 数据集大小: 148581.0 字节。
配置信息
- config_name: default
- data_files:
- train: 数据路径为
data/train-*。 - test: 数据路径为
data/test-*。
- train: 数据路径为
- data_files:
搜集汇总
数据集介绍

构建方式
在乳腺癌诊断这一关键医学领域,精确的细胞核特征分析对于良恶性判别至关重要。Tiburoncin/mom-cancer2数据集基于经典的乳腺癌细针抽吸活检(FNA)图像数据构建,通过对细胞核的形态学特征进行数字化提取与整理,形成了一套结构化的数值型特征集合。该数据集包含32个特征维度,涵盖细胞核半径、纹理、周长、面积、光滑度、紧凑度、凹度、凹点、对称性及分形维数等指标的均值、标准误和最差值,共计398个训练样本与171个测试样本,以标准化的CSV格式存储,便于直接加载与处理。
特点
该数据集的核心特色在于其多维度的细胞核形态学表征,从均值、标准误到最差值,全面捕捉了细胞核在不同统计尺度下的几何与纹理属性。特征命名遵循清晰的三段式结构,如'radius_mean'、'radius_se'和'radius_worst',分别对应不同统计量,为研究者提供了丰富的特征工程空间。此外,数据集已预先划分为训练集与测试集,比例约为7:3,且所有特征均为浮点型数值,诊断标签为字符串类型,确保了数据的一致性与可复现性,非常适合用于分类模型的训练与评估。
使用方法
使用者可通过HuggingFace Datasets库直接加载该数据集,指定配置名为'default'后,利用'load_dataset'函数即可自动获取训练与测试两个子集。加载后的数据可直接转换为Pandas DataFrame格式,便于进行数据探索、可视化及预处理。在模型构建阶段,可将32个数值特征作为输入,以'diagnosis'字段作为目标变量,应用于逻辑回归、支持向量机、随机森林或深度学习等分类算法。该数据集结构简洁,无需复杂的解析步骤,特别适合作为乳腺癌智能诊断研究的基准数据资源。
背景与挑战
背景概述
在医学影像与临床数据分析领域,乳腺癌的早期诊断始终是降低死亡率的关键环节。Tiburoncin/mom-cancer2数据集由研究团队基于威斯康星州乳腺癌诊断数据进行整理与重构,旨在通过细胞核形态学特征构建精准的分类模型。该数据集包含569个样本,每个样本由30个核特征(如半径、纹理、周长、面积、光滑度等)的均值、标准差和最差值构成,对应良性与恶性两种诊断结果。自发布以来,该数据集成为机器学习应用于肿瘤学研究的经典基准,推动了特征工程与分类算法在临床辅助决策中的验证与优化,对理解肿瘤异质性和开发可解释性模型具有重要影响。
当前挑战
该数据集所解决的领域问题在于如何基于有限的细胞核形态特征实现高精度的良恶性判别,其核心挑战包括特征间存在的多重共线性与冗余性,以及样本量相对较小(仅569例)导致的过拟合风险。在构建过程中,挑战体现为数据预处理中缺失值(如未命名列)的处理、特征标准化以消除量纲差异,以及确保训练集(398例)与测试集(171例)的分布一致性,以维持模型泛化能力。此外,临床数据的噪声与测量误差进一步增加了特征鲁棒性建模的难度,需通过严谨的交叉验证与正则化策略加以应对。
常用场景
经典使用场景
在医学影像与生物信息学交叉领域,Tiburoncin/mom-cancer2数据集凭借其精细化的细胞核形态特征,成为乳腺癌诊断模型验证的基准资源。该数据集提取自数字化细针抽吸细胞学图像,涵盖半径、纹理、周长、面积、光滑度、紧凑度、凹度、凹点、对称性和分形维数等三十项量化指标,为良性与恶性肿瘤的判别提供了高维度特征空间。研究者常利用该数据集训练监督学习分类器,如支持向量机、随机森林或深度神经网络,以探索肿瘤异质性与临床诊断之间的潜在关联。其预划分的训练与测试集(398例与171例)确保了实验的可重复性与横向对比的公平性,成为评估特征工程与算法泛化能力的经典试验田。
实际应用
在实际临床辅助诊断系统中,该数据集支撑着自动化病理筛查工具的研发。基于其特征构建的轻量级分类模型可嵌入数字病理分析平台,实时为医生提供肿瘤恶性概率的辅助参考,尤其适用于基层医疗机构的快速初筛。此外,其量化指标如细胞核面积与凹度被整合进放射组学分析流程,帮助识别与预后相关的生物标志物。在药物研发领域,该数据集还能用于评估治疗前后细胞形态变化,间接监测化疗疗效,推动个体化治疗方案的精准制定。
衍生相关工作
围绕该数据集衍生出一系列经典工作,包括基于集成学习的乳腺癌诊断框架,其通过融合多棵决策树的投票机制显著提升了分类稳健性;以及引入注意力机制的卷积神经网络模型,能够自动聚焦于最具判别力的细胞核区域。此外,特征重要性排序研究揭示了半径、周长与凹点均值在区分良恶性中的核心作用,催生了可解释人工智能在病理分析中的早期应用。这些工作不仅深化了对肿瘤形态学特征的理解,也推动了迁移学习在医学小样本场景下的蓬勃发展。
以上内容由遇见数据集搜集并总结生成



