Breast Cancer Dataset|乳腺癌诊断数据集|医学数据分析数据集
收藏数据集概述
数据集名称
- ML_Breast_Cancer_Dataset_Using10KFolds
数据集来源
- 数据集从Kaggle下载,Kaggle是一个由Google拥有的在线数据集仓库。
数据集格式
- CSV格式,包含32列。
数据集内容
- Id: ID号
- Diagnosis: 乳腺组织的诊断结果(M = 恶性,B = 良性)
- Radius_mean: 从中心到边缘点的距离的平均值
- Texture_mean: 灰度值的标准差
- Perimeter_mean: 核心肿瘤的平均大小
- Area_mean: 肿瘤形状的面积
- Smoothness_mean: 半径长度的局部变化的平均值
- Compactness_mean: 周长平方/面积 - 1.0 的平均值
- Concavity_mean: 轮廓的凹部分严重程度的平均值
- Concave points_mean: 轮廓的凹部分数量的平均值
- Symmetry_mean
- Fractal_dimension_mean: 海岸线近似值 - 1 的平均值
- Radius_se: 从中心到边缘点的距离的平均值的标准误差
- Texture_se: 灰度值的标准差的标准误差
- Perimeter_se
- Area_se
- Smoothness_se: 半径长度的局部变化的标准误差
- Compactness_se: 周长平方/面积 - 1.0 的标准误差
- Concavity_se: 轮廓的凹部分严重程度的标准误差
- Concave points_se: 轮廓的凹部分数量的标准误差
- Symmetry_se
- Fractal_dimension_se: 海岸线近似值 - 1 的标准误差
- Radius_worst: 从中心到边缘点的距离的平均值的最大值
- Texture_worst: 灰度值的标准差的最大值
- Perimeter_worst
- Area_worst
- Smoothness_worst: 半径长度的局部变化的最大值
- Compactness_worst: 周长平方/面积 - 1.0 的最大值
- Concavity_worst: 轮廓的凹部分严重程度的最大值
- Concave points_worst: 轮廓的凹部分数量的最大值
- Symmetry_worst
- Fractal_dimension_worst: 海岸线近似值 - 1 的最大值
数据预处理
- 数据预处理包括转换原始数据为CSV格式,以及使用Rapid Miner软件进行数据清洗和过滤,移除冗余数据或缺失值行。
模型训练与测试
- 使用Python编程语言和Jupyter Notebook进行模型训练,使用Sci-kit learn库进行数据集的70:30分割(训练集和测试集),并评估预测的准确性。
- 模型测试通过Sci-kit learn的预测函数进行,对新数据进行预测,其中类标签为空。

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录