Machine-Learning-with-R-datasets|机器学习数据集|R语言数据集
收藏数据集概述
数据集来源及用途
本数据集为书籍《Machine Learning with R》配套数据,用于支持书中机器学习案例的实践。数据集涵盖多个领域,包括医疗、金融、航天等,用于不同的机器学习模型训练和测试。
数据集下载方法
用户需在Mac或Linux环境下通过终端操作下载数据。具体步骤如下:
- 打开终端,并切换到数据下载的目标目录。
- 访问GitHub页面,找到所需数据集的链接。
- 点击页面右侧的“raw”按钮。
- 复制新生成的URL。
- 在终端中输入
wget URL
命令下载数据。
各章节数据集详情
- Chapter 3:
wisc_bc_data.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ - Chapter 4:
sms_spam.csv
- 来源:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/ - Chapter 5:
credit.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/mushrooms.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
- Chapter 6:
challenger.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/whitewines.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
- Chapter 7:
concrete.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/letterdata.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/
- Chapter 8:
groceries.csv
- 来源:arules 包,建议使用library(arules); data(Groceries)
直接调用。
未找到在线数据集
- Chapter 2:
usedcars.csv
- Chapter 5:
insurance.csv
- Chapter 9:
snsdata.csv
重复使用的数据集
- Chapter 10:
credit.csv
- 可能与Chapter 5相同。 - Chapter 11:
credit.csv
- 来自Chapter 5。
未使用数据集的章节
- Chapter 1
- Chapter 12

Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
FAOSTAT Forestry
FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。
www.fao.org 收录
FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录
UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录