five

Machine-Learning-with-R-datasets|机器学习数据集|R语言数据集

收藏
github2020-03-31 更新2024-05-31 收录
机器学习
R语言
下载链接:
https://github.com/manikandan-kumaresan/Machine-Learning-with-R-datasets
下载链接
链接失效反馈
资源简介:
为Brett Lantz的《Machine Learning with R》一书提供的格式化数据集,这些数据集用于支持书中的机器学习案例研究,涵盖了多个领域和类型的数据。

The formatted datasets provided for Brett Lantz's book 'Machine Learning with R' are designed to support the machine learning case studies within the book, encompassing data from various fields and types.
创建时间:
2019-12-29
原始信息汇总

数据集概述

数据集来源及用途

本数据集为书籍《Machine Learning with R》配套数据,用于支持书中机器学习案例的实践。数据集涵盖多个领域,包括医疗、金融、航天等,用于不同的机器学习模型训练和测试。

数据集下载方法

用户需在Mac或Linux环境下通过终端操作下载数据。具体步骤如下:

  1. 打开终端,并切换到数据下载的目标目录。
  2. 访问GitHub页面,找到所需数据集的链接。
  3. 点击页面右侧的“raw”按钮。
  4. 复制新生成的URL。
  5. 在终端中输入wget URL命令下载数据。

各章节数据集详情

  • Chapter 3: wisc_bc_data.csv - 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
  • Chapter 4: sms_spam.csv - 来源:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
  • Chapter 5:
    • credit.csv - 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/
    • mushrooms.csv - 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
  • Chapter 6:
    • challenger.csv - 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/space-shuttle/
    • whitewines.csv - 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
  • Chapter 7:
    • concrete.csv - 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/
    • letterdata.csv - 来源:https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/
  • Chapter 8: groceries.csv - 来源:arules 包,建议使用library(arules); data(Groceries)直接调用。

未找到在线数据集

  • Chapter 2: usedcars.csv
  • Chapter 5: insurance.csv
  • Chapter 9: snsdata.csv

重复使用的数据集

  • Chapter 10: credit.csv - 可能与Chapter 5相同。
  • Chapter 11: credit.csv - 来自Chapter 5。

未使用数据集的章节

  • Chapter 1
  • Chapter 12
AI搜集汇总
数据集介绍
main_image_url
构建方式
《Machine Learning with R》一书的数据集,由Brett Lantz提供,旨在通过R语言对机器学习进行入门介绍。该数据集源自多个公开领域的数据,经过必要的清洗与格式转换,以符合书中所述格式,为机器学习相关算法提供实验基础。
特点
该数据集涵盖了多个领域的数据,如车辆价格、短信分类、信用评分、蘑菇种类判定等,不仅包含结构化数据,还涉及文本数据。所有数据均处于公共领域,用户无需担心版权问题。数据集经过精心整理,与书中案例紧密结合,便于读者跟随书籍内容进行实践。
使用方法
用户可通过访问GitHub页面下载所需数据集。在Mac或Linux环境下,用户需打开终端,切换到指定目录,复制数据集的原始URL,并使用wget命令下载。针对不同的数据集,书中各章节均提供了详细的案例分析与使用说明,方便读者结合实际案例进行学习与研究。
背景与挑战
背景概述
《Machine Learning with R》一书由Brett Lantz撰写,旨在利用R语言对机器学习进行入门介绍。该书涉及的多个数据集均为公共领域资源,但为了符合书中格式,进行了必要的清洗和重新编码。这些数据集的创建并未明确指出具体时间,然而,其依托的UCI机器学习库等资源表明,相关数据集的构建应与机器学习领域的发展同步,为研究者提供了实验和验证算法的平台。Brett Lantz及其出版机构Packt Publishing对该领域有着显著的贡献,特别是在R语言社区中,其影响力不容忽视。
当前挑战
该数据集面临的挑战主要在于获取的便捷性。尽管数据集属于公共领域,但Packt Publishing并未在线提供数据集,读者需购买书籍并创建用户账户才能获得。这对从图书馆借阅或通过其他渠道借书的读者来说,使用上存在障碍。此外,部分数据集在网上无法找到,如usedcars.csv和insurance.csv等,这限制了读者的学习和研究工作。构建过程中的挑战还包括数据清洗和格式转换,以确保与书中描述的格式相匹配。
常用场景
经典使用场景
《Machine Learning with R》一书为R语言在机器学习领域的入门提供了详尽的资源,其附带的Machine-Learning-with-R-datasets数据集便是一例。该数据集的经典使用场景在于辅助读者通过实际案例学习R语言进行机器学习的各种算法实现,如通过分类、回归、聚类等任务,对数据集进行处理与分析,进而达到理论与实践相结合的教学目的。
衍生相关工作
Machine-Learning-with-R-datasets数据集衍生了众多相关工作,如基于该数据集的算法优化研究、模型评估方法改进,以及结合特定行业需求的定制化机器学习解决方案。这些相关工作不仅推动了机器学习技术的进步,也拓展了数据集的应用范围和影响力。
数据集最近研究
最新研究方向
《Machine Learning with R》一书的数据集涉及多个机器学习领域,包括分类、回归、聚类等。目前,该数据集在本领域的前沿研究方向主要集中在利用R语言进行机器学习模型的构建与优化。研究者们通过这些数据集探索新的算法实现,如深度学习在R语言中的集成应用,以及利用R语言进行大规模数据处理和模型部署的方法。此外,数据集的开放获取促进了机器学习在教育领域的普及,使得学习者能够结合实际案例,深入理解机器学习的原理与实践。这些研究不仅提升了R语言在数据处理和分析方面的应用深度,也为机器学习技术在各行业的应用推广提供了有力支撑。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

FAOSTAT Forestry

FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。

www.fao.org 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录