Machine-Learning-with-R-datasets
收藏github2020-01-20 更新2024-05-31 收录
下载链接:
https://github.com/AbhishekMyageri/Machine-Learning-with-R-datasets
下载链接
链接失效反馈官方服务:
资源简介:
Brett Lantz所著《Machine Learning with R》一书使用的格式化数据集,这些数据集来自公共领域,但需要进行清理和重新编码以匹配书中的格式。
The formatted datasets used in the book 'Machine Learning with R' by Brett Lantz are sourced from the public domain. However, they require cleaning and recoding to align with the format presented in the book.
创建时间:
2020-01-03
原始信息汇总
数据集概述
数据集来源
- 数据集主要来源于《Machine Learning with R》一书,作者为Brett Lantz。
- 部分数据集来自公共数据库,如UCI Machine Learning Repository。
数据集列表
| 章节 | 数据集名称 | 来源URL |
|---|---|---|
| 第3章 | wisc_bc_data.csv | https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ |
| 第4章 | sms_spam.csv | http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/ |
| 第5章 | credit.csv | https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/ |
| 第5章 | mushrooms.csv | https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/ |
| 第6章 | challenger.csv | https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/ |
| 第6章 | whitewines.csv | https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/ |
| 第7章 | concrete.csv | https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/ |
| 第7章 | letterdata.csv | https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/ |
| 第8章 | groceries.csv | 来自arules包,建议使用library(arules); data(Groceries) |
| 第10章 | sms_results.csv | 可能来自第4章的sms_test_pred对象 |
| 第10章 | credit.csv | 与第5章相同 |
| 第11章 | credit.csv | 与第5章相同 |
数据下载方法
- 在Mac或Linux环境中,通过终端下载数据集。
- 访问GitHub页面,找到并点击“raw”按钮,复制URL,使用
wget命令下载。
未找到的数据集
- 第2章:usedcars.csv
- 第6章:insurance.csv
- 第9章:snsdata.csv
搜集汇总
数据集介绍

构建方式
Machine-Learning-with-R-datasets数据集是为了辅助《Machine Learning with R》一书的读者实践而构建的。该数据集涵盖了机器学习领域常用的多种数据资源,通过对公开领域数据进行清洗与格式化,以匹配书中所提供的格式要求,便于读者在不购买书籍的情况下也能进行学习和实践。
使用方法
用户可以通过访问GitHub页面下载所需数据集。具体操作包括访问数据集GitHub链接,点击'raw'按钮获取数据直接下载链接,并在终端使用wget命令进行下载。针对不同章节的实践需求,用户需根据README文件中的指示获取相应的数据文件,以支持书中算法的实现与验证。
背景与挑战
背景概述
《Machine Learning with R》一书由Brett Lantz撰写,旨在利用R语言介绍机器学习的基本概念。书中所涉及的数据集,大多来源于公共领域,但为了与书中格式相匹配,进行了必要的清洗与重新编码。这些数据集的创建,是为了辅助教学与实践,让读者能够跟随书中的案例进行操作,加深对机器学习算法的理解。尽管Packt Publishing并未在线提供这些数据集,除非购买书籍并创建用户账户,这对于图书馆借阅或朋友间借阅的读者来说,可能存在一定的不便。
当前挑战
该数据集的构建过程中,面临了数据获取与数据清洗的挑战。数据集的获取过程相对繁琐,需要读者通过GitHub页面手动下载,且部分数据集在网络上无法找到,为学习和研究带来了不便。此外,由于数据集来源于不同的领域,如车辆价格、短信分类、信用评分等,如何确保数据的质量和适用性,以及如何进行有效的数据预处理以匹配书中的格式,也是构建过程中的关键挑战。
常用场景
经典使用场景
在《Machine Learning with R》一书中,Machine-Learning-with-R-datasets数据集被广泛用于介绍和展示R语言在机器学习中的应用。该数据集涵盖了不同类型的机器学习任务,如分类、回归、聚类等,经典使用场景包括对汽车价格预测、垃圾短信识别、乳腺癌诊断等案例的分析和模型构建。
解决学术问题
该数据集有效解决了学术研究中数据获取的难题,尤其是在图书馆借阅书籍或与他人共享书籍时,无法直接访问书中所用数据的问题。它提供了多个领域的真实数据,助力研究者对算法性能进行评估,并促进了机器学习理论在现实世界中的应用。
实际应用
在实际应用中,Machine-Learning-with-R-datasets数据集促进了R语言在数据处理、特征工程和模型部署方面的应用,为金融风险评估、医疗诊断、市场分析等领域的决策提供了科学依据。
数据集最近研究
最新研究方向
《Machine Learning with R》一书所附数据集涉及多个领域,如乳腺癌诊断、短信分类、信用评分等。在当前研究领域,该数据集被用于探索机器学习算法在现实世界问题中的应用。研究者们正致力于优化算法以提高分类和预测的准确性,同时关注数据隐私和模型解释性。这些研究对于推动机器学习在医疗、金融等行业的应用具有重要意义。
以上内容由遇见数据集搜集并总结生成



