Machine-Learning-with-R-datasets
收藏github2019-07-01 更新2024-05-31 收录
下载链接:
https://github.com/LSiddi/Machine-Learning-with-R-datasets
下载链接
链接失效反馈官方服务:
资源简介:
为Brett Lantz所著的《Machine Learning with R》一书提供格式化的数据集,这些数据集用于支持书中的机器学习案例和练习。
This dataset provides formatted data for the book 'Machine Learning with R' by Brett Lantz, supporting the machine learning cases and exercises presented in the book.
创建时间:
2018-01-03
原始信息汇总
数据集概述
数据集来源
- 本书《Machine Learning with R》由Brett Lantz编写,数据集主要用于辅助书中机器学习案例的实践。
数据集下载方法
- 在Mac或Linux环境下,打开终端并切换到数据下载的目标目录。
- 访问GitHub页面,找到所需数据集的原始文件链接。
- 点击页面右侧的“raw”按钮。
- 复制新页面的URL。
- 在终端中使用wget命令下载数据。
各章节数据集详情
Chapter 3
- 数据集:wisc_bc_data.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
Chapter 4
- 数据集:sms_spam.csv
- 来源:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
Chapter 5
- 数据集:credit.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/
- 数据集:mushrooms.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
Chapter 6
- 数据集:challenger.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/
- 数据集:whitewines.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
Chapter 7
- 数据集:concrete.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/
- 数据集:letterdata.csv
- 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/
Chapter 8
- 数据集:groceries.csv
- 来源:arules 包,建议使用
library(arules); data(Groceries)直接调用。
Chapter 10
- 数据集:sms_results.csv
- 来源:可能源自Chapter 4的
sms_test_pred对象。 - 数据集:credit.csv
- 来源:可能与Chapter 5的数据集相同。
Chapter 11
- 数据集:credit.csv
- 来源:与Chapter 5的数据集相同。
搜集汇总
数据集介绍

构建方式
Machine-Learning-with-R-datasets数据集是由Brett Lantz的著作《Machine Learning with R》中的实例所使用的各个数据集构成的。这些数据集大多来源于公共领域,经过必要的清洗和格式转换,以符合书籍中的格式要求,旨在为机器学习实践提供可直接使用的样本集。
特点
该数据集涵盖了不同类型的机器学习问题,如分类、回归等。它具有多样化的特点,包含了从车辆价格、短信分类到空间 shuttle 数据等不同领域的实例。所有数据集均为公开可用,经过整理后,便于读者在不购买书籍的情况下也能进行实践操作。
使用方法
用户可通过访问GitHub页面下载所需数据集。在Mac或Linux环境下,用户需打开终端,切换至目标文件夹,复制数据集的原始URL,并使用wget命令下载。数据集的具体使用方法通常与《Machine Learning with R》一书中的示例相匹配,便于读者跟随书中内容进行学习和实践。
背景与挑战
背景概述
《Machine Learning with R》是一本由Brett Lantz所著的书籍,旨在利用R语言对机器学习进行入门介绍。书中所涉及的数据集大多属于公共领域,但为了与书中格式相匹配,需要进行一定的清洗和重新编码。这些数据集的创建并非旨在解决特定领域问题,而是作为教学辅助,帮助读者理解并实践机器学习的相关算法和理论。尽管Packt Publishing并未在线提供这些数据集,除非购买书籍并创建用户账户,但这并不妨碍其作为教学资源的广泛使用和影响力。
当前挑战
数据集的主要挑战在于其获取方式的不便。读者若需要使用这些数据集,需通过特定的GitHub页面下载,并经过命令行操作获取。此外,书中部分数据集(如usedcars.csv、insurance.csv和snsdata.csv等)在线上无法找到,这为读者实践造成了一定的困扰。构建过程中,作者面临了数据清洗和格式转换的挑战,以确保数据集适用于书中的案例和算法。
常用场景
经典使用场景
在《Machine Learning with R》一书中,Machine-Learning-with-R-datasets数据集作为实践素材,被广泛应用于介绍机器学习算法的实现与分析。其经典使用场景包括对车辆价格预测、短信分类、信用评分、蘑菇种类识别等问题的建模与预测,这些场景涵盖了分类、回归、聚类等机器学习核心领域。
衍生相关工作
基于该数据集,衍生了大量的相关研究工作,包括但不限于算法改进、模型优化、特征选择方法的研究,以及在不同领域的应用扩展,如文本分类、图像识别等,进一步拓展了机器学习的应用边界。
数据集最近研究
最新研究方向
《Machine Learning with R》一书所提供的Machine-Learning-with-R-datasets数据集,涵盖了机器学习领域中的多个经典数据集。该数据集在本领域的前沿研究方向主要聚焦于机器学习算法在R语言中的实现与应用。研究者通过这些数据集,探索了如信用评分、垃圾短信分类、乳腺癌诊断等课题,这些研究对现实世界中的问题解决具有深远影响。当前,该数据集正被用于推动算法优化、特征工程以及模型评估等方面的研究,对提升机器学习模型的准确性和实用性具有重要意义。
以上内容由遇见数据集搜集并总结生成



