Machine-Learning-with-R-datasets

github2020-11-13 更新2024-05-31 收录

下载链接：

https://github.com/priyankaMedidata/Machine-Learning-with-R-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Brett Lantz所著《Machine Learning with R》一书中的格式化数据集，用于机器学习实践。

Brett Lantz所著《机器学习与R语言》一书中所包含的格式化数据集，旨在为机器学习实践提供实例与素材。

创建时间：

2019-11-21

原始信息汇总

数据集概述

数据集来源及用途

本数据集为书籍《Machine Learning with R》配套数据，用于支持书中各章节的机器学习实践。

数据集下载方法

在Mac或Linux环境下，打开终端并切换到目标下载目录。
访问GitHub页面，找到所需数据集的原始文件链接。
点击页面右侧的“raw”按钮。
复制新生成的URL。
在终端中执行wget URL命令下载数据。

各章节数据集详情

Chapter 1: 无使用数据集。
Chapter 2: usedcars.csv 未在线找到。
Chapter 3: wisc_bc_data.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
Chapter 4: sms_spam.csv 来自 http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
Chapter 5:
- credit.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/
- mushrooms.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
Chapter 6:
- challenger.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/
- insurance.csv 未在线找到。
- whitewines.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
Chapter 7:
- concrete.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/
- letterdata.csv 来自 https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/
Chapter 8: groceries.csv 来自 arules 包，建议使用 library(arules); data(Groceries) 调用。
Chapter 9: snsdata.csv 未在线找到。
Chapter 10:
- sms_results.csv 可能来自 Chapter 4 的 sms_test_pred 对象。
- credit.csv 可能与 Chapter 5 的文件相同。
Chapter 11: 重复使用 Chapter 5 的 credit.csv。
Chapter 12: 无使用数据集。

搜集汇总

数据集介绍

构建方式

该数据集是为配合《Machine Learning with R》一书而构建的，书中介绍了使用R语言进行机器学习的基础知识。数据集主要来源于公共领域，但为了与书中的格式保持一致，进行了必要的清理和重新编码。部分数据集直接来自UCI机器学习库，如乳腺癌威斯康星数据集和蘑菇分类数据集，而其他数据集则通过书籍支持页面获取。

特点

该数据集涵盖了多个机器学习领域的经典案例，包括分类、回归和聚类等任务。数据集格式统一，便于直接应用于R语言环境中的机器学习算法。每个数据集都经过精心挑选和预处理，确保了数据的质量和适用性。此外，数据集来源多样，既有公开的学术资源，也有专门为书籍定制的数据，能够满足不同学习需求。

使用方法

用户可以通过GitHub页面直接下载所需的数据集。在Mac或Linux环境中，使用终端命令`wget`结合数据集的`raw`链接即可完成下载。例如，下载第六章的`challenger.csv`文件，只需在终端输入`wget https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/master/challenger.csv`。下载后，用户可将数据导入R环境，结合书中的代码示例进行机器学习实验和分析。

背景与挑战

背景概述

Machine-Learning-with-R-datasets数据集是为配合Brett Lantz所著的《Machine Learning with R》一书而创建的，旨在为读者提供实践机器学习的公共数据集。这些数据集涵盖了多个机器学习应用场景，如分类、回归和聚类等。尽管这些数据集原本属于公共领域，但为了与书中的示例代码保持一致，部分数据经过了清洗和重新编码。该数据集的创建时间与书籍的出版时间相近，主要服务于R语言环境下的机器学习教学与研究。通过提供这些数据集，读者能够更好地理解书中的算法实现，并在实际项目中应用这些技术。

当前挑战

该数据集面临的主要挑战包括数据获取的复杂性和数据完整性问题。由于部分数据集需要通过购买书籍或创建特定账户才能获取，这为未购买书籍的用户带来了不便。此外，某些数据集（如usedcars.csv和insurance.csv）在公开平台上无法找到，导致数据集的完整性受到影响。在数据构建过程中，数据清洗和格式统一也是一个重要挑战，尤其是需要将原始数据重新编码以匹配书中的示例格式。这些挑战不仅影响了数据集的可用性，也对研究者和学习者的使用体验造成了一定的困扰。

常用场景

经典使用场景

在机器学习领域，R语言因其强大的统计分析和数据处理能力而备受青睐。该数据集为《Machine Learning with R》一书提供了配套数据，涵盖了从基础到高级的多种机器学习算法应用场景。例如，wisc_bc_data.csv用于乳腺癌分类，sms_spam.csv用于垃圾短信过滤，credit.csv用于信用评分模型构建。这些数据集为学习者提供了丰富的实践材料，帮助他们通过R语言实现机器学习算法的应用与优化。

衍生相关工作

该数据集衍生了许多经典的机器学习研究工作。例如，基于wisc_bc_data.csv的研究推动了乳腺癌早期诊断技术的发展；使用sms_spam.csv的算法优化显著提升了垃圾短信过滤的准确率。此外，groceries.csv被广泛应用于关联规则挖掘研究，推动了零售业智能推荐系统的进步。这些衍生工作不仅验证了数据集的实用性，也为相关领域的学术研究提供了重要参考。

数据集最近研究