Machine-Learning-with-R-datasets

github2019-10-24 更新2024-05-31 收录

下载链接：

https://github.com/MANOJ-AKKALA/Machine-Learning-with-R-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

为Brett Lantz所著的《Machine Learning with R》一书提供的格式化数据集，这些数据集虽然属于公共领域，但需要进行清理和重新编码以匹配书中的格式。

Formatted datasets developed for the book *Machine Learning with R* authored by Brett Lantz. Though these datasets fall into the public domain, they necessitate cleaning and re-encoding to conform to the formatting requirements outlined in the book.

创建时间：

2019-09-13

原始信息汇总

数据集概述

数据集来源及用途

本数据集为书籍《Machine Learning with R》配套数据，用于辅助学习机器学习在R语言中的应用。

数据集下载方法

在Mac或Linux环境下，通过终端操作下载数据集。具体步骤包括：
1. 打开终端并切换到目标下载目录。
2. 访问GitHub页面，找到所需数据集的原始文件链接。
3. 点击“raw”按钮获取原始文件URL。
4. 使用wget命令下载数据集，例如：wget https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/master/challenger.csv。

各章节数据集详情

Chapter 1: 无数据集使用。
Chapter 2: 使用cars.csv，但无法在线找到。
Chapter 3: 使用wisc_bc_data.csv，来源：https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/。
Chapter 4: 使用sms_spam.csv，来源：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。
Chapter 5: 使用credit.csv，来源：https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/；使用mushrooms.csv，来源：https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/。
Chapter 6: 使用challenger.csv，来源：https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/；使用whitewines.csv，来源：https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/。
Chapter 7: 使用concrete.csv，来源：https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/；使用letterdata.csv，来源：https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/。
Chapter 8: 使用groceries.csv，来源：arules。
Chapter 9: 使用snsdata.csv，但无法在线找到。
Chapter 10: 使用sms_results.csv，可能来源于Chapter 4的sms_test_pred对象；使用credit.csv，可能与Chapter 5的文件相同。
Chapter 11: 重复使用Chapter 5的credit.csv。
Chapter 12: 无数据集使用。

搜集汇总

数据集介绍

构建方式

《Machine Learning with R》一书所提供的Machine-Learning-with-R-datasets数据集，是由作者Brett Lantz精心构建的。该数据集旨在辅助读者通过实践的方式学习机器学习算法在R语言中的应用。数据集来源于多个领域，涵盖了从公共领域获取的数据，并经过必要的清洗与重新编码，以符合书中实例的需求。

特点

该数据集的特点在于其多样性，不仅包含了结构化数据，还涉及了文本数据，能够满足不同机器学习算法的学习需求。数据集涵盖了汽车价格、短信分类、信用评分、蘑菇种类识别等多个方面的数据，均为公开领域数据，且经过整理，方便读者直接用于书中算法的实现与验证。

使用方法

数据集的使用方法简洁明了，用户可通过GitHub页面下载所需数据集。具体步骤包括：在终端导航至目标文件夹，访问数据集的GitHub页面，复制数据集的原始URL，并使用wget命令进行下载。此外，部分数据集可以直接通过R语言的包或函数获取，例如使用arules包中的Groceries数据集。

背景与挑战

背景概述

《Machine Learning with R》一书由Brett Lantz撰写，旨在利用R语言对机器学习进行入门介绍。该书所涉及的多个数据集，均处于公共领域，但为了与书中格式相匹配，进行了必要的清洗与重新编码。尽管Packt Publishing未在线提供这些数据集，但读者可通过创建用户账户或从公共数据源下载获得。这些数据集的创建并非出自单一机构或研究人员，而是依托于多个公开的数据源，为R语言在机器学习领域的应用提供了实践基础。

当前挑战

数据集获取的挑战主要体现在两个方面：一是获取途径的限制，读者需购买书籍并创建账户才能下载，这为图书馆借阅或友人借阅的读者带来了不便；二是部分数据集在线上无法找到，导致学习者无法完全遵循书籍中的案例进行实践。此外，数据集的构建过程中，作者面临的挑战是如何将公共领域的数据清洗和格式化，以适应书中的教学需求。

常用场景

经典使用场景

Machine-Learning-with-R-datasets作为《Machine Learning with R》一书的辅助数据集，其经典使用场景在于为机器学习初学者提供实践操作的素材。这些数据集经过整理与格式化，能够与书中算法示例无缝对接，帮助读者更好地理解机器学习理论，并掌握R语言在数据分析中的应用。

衍生相关工作

Machine-Learning-with-R-datasets衍生了诸多相关工作，包括但不限于算法改进、模型优化以及新的数据分析方法的探索。学者们在这些数据集的基础上，发表了关于机器学习算法效率、数据预处理技术以及模型评估标准的学术论文，推动了相关领域的学术发展。

数据集最近研究