Machine-Learning-with-R-datasets

github2020-01-20 更新2024-05-31 收录

下载链接：

https://github.com/AbhishekMyageri/Machine-Learning-with-R-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Brett Lantz所著《Machine Learning with R》一书使用的格式化数据集，这些数据集来自公共领域，但需要进行清理和重新编码以匹配书中的格式。

The formatted datasets used in the book 'Machine Learning with R' by Brett Lantz are sourced from the public domain. However, they require cleaning and recoding to align with the format presented in the book.

创建时间：

2020-01-03

原始信息汇总

数据集概述

数据集来源

数据集主要来源于《Machine Learning with R》一书，作者为Brett Lantz。
部分数据集来自公共数据库，如UCI Machine Learning Repository。

数据集列表

章节	数据集名称	来源URL
第3章	wisc_bc_data.csv	https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
第4章	sms_spam.csv	http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
第5章	credit.csv	https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/
第5章	mushrooms.csv	https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
第6章	challenger.csv	https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/
第6章	whitewines.csv	https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
第7章	concrete.csv	https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/
第7章	letterdata.csv	https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/
第8章	groceries.csv	来自arules包，建议使用`library(arules); data(Groceries)`
第10章	sms_results.csv	可能来自第4章的`sms_test_pred`对象
第10章	credit.csv	与第5章相同
第11章	credit.csv	与第5章相同

数据下载方法

在Mac或Linux环境中，通过终端下载数据集。
访问GitHub页面，找到并点击“raw”按钮，复制URL，使用wget命令下载。

未找到的数据集

第2章：usedcars.csv
第6章：insurance.csv
第9章：snsdata.csv

搜集汇总

数据集介绍

构建方式

Machine-Learning-with-R-datasets数据集是为了辅助《Machine Learning with R》一书的读者实践而构建的。该数据集涵盖了机器学习领域常用的多种数据资源，通过对公开领域数据进行清洗与格式化，以匹配书中所提供的格式要求，便于读者在不购买书籍的情况下也能进行学习和实践。

使用方法

用户可以通过访问GitHub页面下载所需数据集。具体操作包括访问数据集GitHub链接，点击'raw'按钮获取数据直接下载链接，并在终端使用wget命令进行下载。针对不同章节的实践需求，用户需根据README文件中的指示获取相应的数据文件，以支持书中算法的实现与验证。

背景与挑战

背景概述

《Machine Learning with R》一书由Brett Lantz撰写，旨在利用R语言介绍机器学习的基本概念。书中所涉及的数据集，大多来源于公共领域，但为了与书中格式相匹配，进行了必要的清洗与重新编码。这些数据集的创建，是为了辅助教学与实践，让读者能够跟随书中的案例进行操作，加深对机器学习算法的理解。尽管Packt Publishing并未在线提供这些数据集，除非购买书籍并创建用户账户，这对于图书馆借阅或朋友间借阅的读者来说，可能存在一定的不便。

当前挑战

该数据集的构建过程中，面临了数据获取与数据清洗的挑战。数据集的获取过程相对繁琐，需要读者通过GitHub页面手动下载，且部分数据集在网络上无法找到，为学习和研究带来了不便。此外，由于数据集来源于不同的领域，如车辆价格、短信分类、信用评分等，如何确保数据的质量和适用性，以及如何进行有效的数据预处理以匹配书中的格式，也是构建过程中的关键挑战。

常用场景

经典使用场景

在《Machine Learning with R》一书中，Machine-Learning-with-R-datasets数据集被广泛用于介绍和展示R语言在机器学习中的应用。该数据集涵盖了不同类型的机器学习任务，如分类、回归、聚类等，经典使用场景包括对汽车价格预测、垃圾短信识别、乳腺癌诊断等案例的分析和模型构建。

解决学术问题

该数据集有效解决了学术研究中数据获取的难题，尤其是在图书馆借阅书籍或与他人共享书籍时，无法直接访问书中所用数据的问题。它提供了多个领域的真实数据，助力研究者对算法性能进行评估，并促进了机器学习理论在现实世界中的应用。

实际应用

在实际应用中，Machine-Learning-with-R-datasets数据集促进了R语言在数据处理、特征工程和模型部署方面的应用，为金融风险评估、医疗诊断、市场分析等领域的决策提供了科学依据。

数据集最近研究