five

乳腺癌数据集

收藏
阿里云天池2026-05-08 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/136044
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
本数据库是收集UCI里面关于乳腺癌公开的数据集后整理得到的,我用来检验置信规则库算法和weka软件两者结合,是否能跳过规则优化,直接使准确率达到90%以上 前提属性有5个,输出结果1个 X1——BIRADS等级,取值范围是1到5,数值越大,表示肿块是乳腺癌恶性的概率越大。 X2——年龄,0到100之间,但是可以在后续数据处理过程中,取62.6为乳腺癌数据中恶性平均值,49.3为数据中良性的平均值,55.8为清洗后的数据年龄的平均值,为了降低规则复杂度,我取值 0-42.8和82.1-100为低等风险,42.8-55.8和69.1-82.1为中等风险,55.8-69.1为高等风险这三个区间,这样年龄就只有0——42.8——55.8——69.1——82.1——100这五个区间,低中高三个层次,极大的降低了规则复杂度。 X3——肿块形状,分为圆形=1、椭圆形=2 、小叶状=3、不规则=4。 X4——肿块边缘,分为境界清晰光滑=1、浅分叶=2、境界模糊=3、境界不清晰=4、毛刺=5。 X5——肿块密度,分为含脂肪=1、低=2、中=3、高=4。 Y ——结论,良性=0,恶性=1。

This database is compiled from publicly available breast cancer datasets sourced from the UCI Machine Learning Repository. It is developed to verify whether the combination of Belief Rule Base (BRB) algorithm and Weka software can directly achieve an accuracy of over 90% without performing rule optimization. There are 5 conditional attributes and 1 output attribute in total: X1 — BIRADS rating, with a value range of 1 to 5. A higher numerical value indicates a higher probability that the breast mass is malignant. X2 — Age, originally ranging from 0 to 100. During post-data processing, to reduce rule complexity, the age attribute is discretized into three risk tiers across five intervals: 0–42.8 and 82.1–100 correspond to low risk, 42.8–55.8 and 69.1–82.1 correspond to medium risk, and 55.8–69.1 correspond to high risk. The reference mean values adopted are 62.6 for malignant breast cancer samples, 49.3 for benign samples, and 55.8 for the cleaned dataset, which greatly simplifies the rule construction. X3 — Mass shape, with categorical values: round = 1, oval = 2, lobular = 3, irregular = 4. X4 — Mass margin, with categorical values: circumscribed and smooth = 1, shallow lobulated = 2, ill-defined = 3, poorly defined = 4, spiculated = 5. X5 — Mass density, with categorical values: fat-containing = 1, low = 2, medium = 3, high = 4. Y — Final diagnosis, with benign = 0 and malignant = 1.
提供机构:
阿里云天池
创建时间:
2022-08-14
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于UCI乳腺癌公开数据整理而成,主要用于测试置信规则库算法与Weka软件结合能否在不进行规则优化的条件下实现90%以上的分类准确率。数据集包含5个关键属性(如BIRADS等级、年龄、肿块特征等)和1个二元输出(良性或恶性),其中年龄属性被预处理为风险区间以简化模型规则。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作