breast-cancer

github2023-11-06 更新2024-05-31 收录

下载链接：

https://github.com/datasets/breast-cancer

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于乳腺癌发生的数据集，数据来源于University Medical Centre, Institute of Oncology, Ljubljana, Yugoslavia。数据集包含286个实例，10个属性，存在缺失值。类别分布包括无复发事件和复发事件。

This dataset pertains to the occurrence of breast cancer, sourced from the University Medical Centre, Institute of Oncology, Ljubljana, Yugoslavia. It comprises 286 instances with 10 attributes, and includes missing values. The class distribution encompasses both non-recurrence and recurrence events.

创建时间：

2018-01-04

原始信息汇总

数据集概述

数据来源

数据集来源于OpenML - breast-cancer。
数据由University Medical Centre, Institute of Oncology, Ljubljana, Yugoslavia提供。

数据集详情

实例数量：286个
属性数量：10个
缺失值：存在

类别分布

无复发事件：201个实例
复发事件：85个实例

数据存储位置

输出数据位于data目录下，具体文件为data/breast-cancer.csv。

许可证

数据集遵循Public Domain Dedication and License。

搜集汇总

数据集介绍

构建方式

该数据集源自于斯洛文尼亚卢布尔雅那大学医学中心肿瘤研究所，由Matjaz Zwitter和Milan Soklic两位医师提供。数据集的构建基于实际的乳腺癌病例，涵盖了286个实例，每个实例包含10个属性，旨在反映乳腺癌的复发情况。数据集的原始信息由Ming Tan和Jeff Schlimmer整理，并于1988年7月11日发布。

特点

该数据集具有显著的临床应用价值，其特点在于包含了详细的乳腺癌病例信息，包括患者的各项临床指标和复发情况。数据集中的属性涵盖了患者的年龄、肿瘤大小、淋巴结状态等关键信息，为研究乳腺癌的诊断和治疗提供了丰富的数据支持。此外，数据集还包含了缺失值，这为数据处理和分析提供了实际的挑战。

使用方法

数据集的使用方法相对直接，用户可以通过访问`data`目录下的`breast-cancer.csv`文件获取原始数据。此外，`scripts`目录中提供了`main.py`脚本，用户可以利用该脚本进行数据预处理和分析。数据集适用于多种机器学习和数据分析任务，如分类、回归和特征选择，特别适合于研究乳腺癌的复发预测和风险评估。

背景与挑战

背景概述

乳腺癌作为全球女性最常见的恶性肿瘤之一，其早期诊断和治疗对提高患者生存率至关重要。该数据集‘breast-cancer’源自于1988年由University Medical Centre, Institute of Oncology, Ljubljana, Yugoslavia的Matjaz Zwitter和Milan Soklic提供，后由Ming Tan和Jeff Schlimmer整理。该数据集包含了286个实例，涵盖10个属性，旨在通过数据分析和机器学习技术，辅助乳腺癌的早期检测和复发预测。其发布对乳腺癌研究领域具有重要意义，为后续的临床研究和算法开发提供了宝贵的数据资源。

当前挑战

尽管‘breast-cancer’数据集在乳腺癌研究中具有重要价值，但其构建和应用过程中仍面临若干挑战。首先，数据集包含缺失值，这可能影响模型的准确性和稳定性。其次，数据集的样本量相对较小，尤其是复发事件的样本仅85例，可能导致模型在处理不平衡数据时的性能下降。此外，数据集的属性数量有限，可能无法全面反映乳腺癌的复杂性，限制了模型的预测能力。这些挑战需要在未来的研究中得到进一步的解决和优化。

常用场景

经典使用场景

在医学研究领域，breast-cancer数据集常用于乳腺癌的诊断与预测。通过分析数据集中的各项特征，如肿瘤的大小、形状、边缘等，研究人员可以构建分类模型，以区分复发与非复发病例。这种模型不仅有助于提高诊断的准确性，还能为临床决策提供科学依据。

实际应用

在实际应用中，breast-cancer数据集被广泛用于开发和优化乳腺癌诊断系统。这些系统能够根据患者的临床数据，快速且准确地评估其复发风险，从而指导医生制定更为有效的治疗策略。此外，该数据集还被用于培训医疗专业人员，提升其对乳腺癌诊断和治疗的理解与技能。

衍生相关工作

基于breast-cancer数据集，许多相关研究工作得以展开。例如，研究人员通过该数据集开发了多种机器学习算法，用于乳腺癌的早期检测和风险评估。此外，该数据集还促进了跨学科的合作，如与生物信息学、统计学等领域的结合，进一步推动了乳腺癌研究的深入发展。

以上内容由遇见数据集搜集并总结生成