Machine-Learning-with-R-datasets

github2019-07-16 更新2024-05-31 收录

下载链接：

https://github.com/pythongiant/Machine-Learning-with-R-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

为Brett Lantz所著的《Machine Learning with R》一书提供格式化数据集，这些数据集用于支持书中的机器学习示例和练习。

This dataset provides formatted data for the book 'Machine Learning with R' by Brett Lantz, supporting the machine learning examples and exercises within the book.

创建时间：

2017-06-16

原始信息汇总

数据集概述

数据集来源及用途

本数据集为书籍《Machine Learning with R》配套的数据集，用于辅助读者学习和实践R语言中的机器学习技术。

数据集下载方法

在Mac或Linux环境中，打开终端并切换到数据下载的目标目录。
访问GitHub页面，找到所需数据集的链接。
点击页面右侧的“raw”按钮。
复制新页面的URL。
在终端中输入wget 复制的URL进行下载。

各章节数据集详情

Chapter 1: 无数据集使用。
Chapter 2: usedcars.csv 未在线找到。
Chapter 3: wisc_bc_data.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
Chapter 4: sms_spam.csv 来自 http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
Chapter 5:
- credit.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/
- mushrooms.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
Chapter 6:
- challenger.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/
- insurance.csv 未在线找到。
- whitewines.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
Chapter 7:
- concrete.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/
- letterdata.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/
Chapter 8: groceries.csv 来自 arules 包，建议使用 library(arules); data(Groceries) 调用。
Chapter 9: snsdata.csv 未在线找到。
Chapter 10:
- sms_results.csv 可能来自Chapter 4的sms_test_pred对象。
- credit.csv 可能与Chapter 5中的文件相同。
Chapter 11: 重复使用Chapter 5的credit.csv。
Chapter 12: 无数据集使用。

搜集汇总

数据集介绍

构建方式

Machine-Learning-with-R-datasets数据集是基于Brett Lantz所著《Machine Learning with R》一书中的需求构建而成，旨在为R语言下的机器学习提供实例数据。该数据集的构建涉及对公共领域数据进行清洗和重新编码，以符合书籍中的格式要求。

特点

该数据集的特点在于其与机器学习书籍的紧密结合，提供了实际操作中所需的数据支持。数据集涵盖了多个领域，如车辆、医疗、金融、航天等，包含了分类、回归、聚类等多种机器学习任务所需的数据。此外，所有数据均来源于公共领域，经过必要的整理和格式化处理，确保了数据的质量和可用性。

使用方法

数据集的获取方式简便，用户可在Mac或Linux环境下，通过终端下载所需数据。具体步骤包括：定位下载目录，访问GitHub数据页面，复制数据文件的原始URL，并使用wget命令进行下载。对于无法在线找到的数据集，用户可能需要通过其他渠道获取或自行构建。

背景与挑战

背景概述

《Machine Learning with R》一书中所涉及的数据集，旨在为R语言环境下机器学习入门提供实践数据。该数据集由Brett Lantz整理，涵盖多个机器学习领域的实际问题，如二手车价格预测、垃圾邮件识别等。数据集创建于书籍出版之际，主要研究人员为Brett Lantz，隶属于Packt Publishing出版社。虽然这些数据集属于公共领域，但为了与书中格式相匹配，需要进行数据清洗和重新编码。该数据集对R语言机器学习领域具有重要的教学和实践指导意义。

当前挑战

数据集面临的主要挑战包括：1) 数据集获取的不便，Packt Publishing出版社并未在线提供数据集，读者需购买书籍并创建用户账户才能获取；2) 部分数据集在网上难以找到，如usedcars.csv、insurance.csv和snsdata.csv等，这给学习和验证书中的算法带来了困难；3) 数据清洗和格式转换工作繁琐，增加了使用数据集的门槛。

常用场景

经典使用场景

在《Machine Learning with R》一书中，Machine-Learning-with-R-datasets数据集作为实例，被广泛应用于介绍机器学习的各种算法和模型。该数据集涵盖了从车辆价格预测、短信分类到空间飞行器故障预测等多个经典场景，旨在帮助读者理解和掌握如何使用R语言进行机器学习。

解决学术问题

该数据集解决了机器学习领域中数据获取和处理的难题，特别是在学术研究中，它为研究者提供了可直接用于模型构建和算法验证的标准化数据。这对于研究诸如分类、回归、聚类等机器学习问题具有显著的意义和影响。

衍生相关工作

基于该数据集，已经衍生出许多相关的学术研究和应用项目，如利用数据集中的credit.csv进行信用评分模型的构建，或是基于mushrooms.csv进行的真菌分类研究，这些都进一步扩展了数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集