Machine-Learning-with-R-datasets
收藏github2017-09-28 更新2024-05-31 收录
下载链接:
https://github.com/helulu2017/Machine-Learning-with-R-datasets
下载链接
链接失效反馈官方服务:
资源简介:
为Brett Lantz的《R机器学习》一书提供的格式化数据集,这些数据集原本需要购买书籍并创建用户账户才能获取,但本仓库将这些公共领域的数据集进行了清理和重编码,以匹配书中格式。
This repository provides formatted datasets for Brett Lantz's book 'Machine Learning with R'. Originally, these datasets required purchasing the book and creating a user account to access. However, this repository has cleaned and recoded these public domain datasets to match the format used in the book.
创建时间:
2017-09-28
原始信息汇总
数据集概述
数据集来源
- 本书《Machine Learning with R》由Brett Lantz编写,数据集主要用于配合书中各章节的学习和实践。
数据集下载方法
- 在Mac或Linux环境中,打开终端并切换到希望下载数据的目录。
- 访问GitHub页面,找到所需数据集的链接。
- 点击页面右侧的“raw”按钮。
- 复制新页面的URL。
- 在终端中输入
wget URL命令下载数据。
各章节数据集详情
- Chapter 1: 无使用数据集。
- Chapter 2:
usedcars.csv未在线找到。 - Chapter 3:
wisc_bc_data.csv来自 https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ - Chapter 4:
sms_spam.csv来自 http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/ - Chapter 5:
credit.csv来自 https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/mushrooms.csv来自 https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
- Chapter 6:
challenger.csv来自 https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/insurance.csv未在线找到。whitewines.csv来自 https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
- Chapter 7:
concrete.csv来自 https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/letterdata.csv来自 https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/
- Chapter 8:
groceries.csv来自 arules 包,建议使用library(arules); data(Groceries)调用。 - Chapter 9:
snsdata.csv未在线找到。 - Chapter 10:
sms_results.csv可能来自第4章的sms_test_pred对象。credit.csv可能与第5章使用的文件相同。
- Chapter 11: 重用第5章的
credit.csv。 - Chapter 12: 无使用数据集。
搜集汇总
数据集介绍

构建方式
《Machine Learning with R》一书的数据集由Brett Lantz提供,旨在通过R语言对机器学习进行入门介绍。该数据集的构建基于公共领域的数据,经过必要的清洗与格式转换,以符合书籍中的格式要求,确保读者能够跟随书中的案例进行实践。
使用方法
用户可通过GitHub页面下载所需数据集。具体操作为:在Mac或Linux环境下打开终端,定位到目标文件夹,复制GitHub上数据集的原始URL,并使用wget命令进行下载。部分数据集也可通过R语言的特定包直接调用,如arules包中的Groceries数据集。
背景与挑战
背景概述
《Machine Learning with R》一书的作者Brett Lantz旨在通过R语言向读者介绍机器学习的基本概念。书中所涉及的数据集,大多来源于公共领域,然而,为了与书中格式相匹配,这些数据集需要进行一定的清洗和重新编码。尽管Packt Publishing并未在线提供这些数据集,除非购买书籍并创建用户账户,这对于从图书馆借阅或通过朋友借阅书籍的读者来说,无疑是一大难题。
当前挑战
该数据集的挑战主要体现在两个方面:一是获取数据集的难度,因为Packt Publishing并未在线公开提供数据集,导致读者在学习和实践时存在障碍;二是数据集清洗和格式匹配的问题,由于数据集来源于公共领域,格式各异,需要经过相应的处理才能满足书籍中的需求。此外,某些数据集如usedcars.csv、insurance.csv和snsdata.csv等在网上无法找到,也增加了学习和使用的难度。
常用场景
经典使用场景
《Machine Learning with R》一书中所提供的数据集,旨在辅助读者通过实际案例深入理解机器学习算法的应用。该数据集在学术研究中经典的使用场景包括为算法训练提供基准数据,例如,通过sms_spam.csv进行垃圾短信分类,或利用wisc_bc_data.csv对乳腺癌数据进行分类预测,从而帮助读者掌握监督学习的方法。
解决学术问题
该数据集解决了学术研究中数据获取与格式匹配的问题,使得学者能够便利地使用公共领域的数据进行机器学习模型的构建与评估。它为研究者提供了包括文本分类、图像识别、数值预测等多种类型的数据,极大地促进了学术研究的多样性和深入性。
实际应用
在实际应用中,这些数据集可用于构建预测模型,如credit.csv数据集被用于评估信贷风险,mushrooms.csv则用于分类蘑菇的可食用性。这些应用场景展示了数据集在实际业务决策和风险评估中的重要作用。
数据集最近研究
最新研究方向
《Machine Learning with R》一书所提供的Machine-Learning-with-R-datasets数据集,涵盖了多个机器学习领域的经典数据集,如乳腺癌诊断、短信分类、信用评分等。当前,该数据集正被广泛应用于机器学习模型的训练与测试中。在本领域内,最新的研究方向聚焦于深度学习模型的优化、迁移学习和自动化机器学习算法的发展,研究者们通过这些数据集来训练模型,以实现更高的预测精度和更低的错误率,推动机器学习技术在现实世界的应用。
以上内容由遇见数据集搜集并总结生成



