Machine Learning Datasets

github2019-08-01 更新2024-05-31 收录

下载链接：

https://github.com/mmm84766/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含MachineLearningMastery.com教程中使用的机器学习数据集副本。这些数据集用于确保教程中使用的数据集保持可用，并不依赖于不可靠的第三方。

This repository contains copies of the machine learning datasets used in the tutorials on MachineLearningMastery.com. These datasets are provided to ensure that the datasets utilized in the tutorials remain accessible and do not rely on unreliable third-party sources.

创建时间：

2019-08-01

原始信息汇总

机器学习数据集

本仓库包含用于MachineLearningMastery.com教程中的机器学习数据集的副本。

数据集概述

二分类数据集

乳腺癌（威斯康星）
乳腺癌（南斯拉夫）
银行票据认证
马绞痛
电离层
皮马印第安人糖尿病
声纳返回

多分类数据集

玻璃识别
鸢尾花种类
小麦种子
鲍鱼年龄（或回归）
葡萄酒质量（或回归）

回归数据集

波士顿房价
朗利经济
汽车保险总索赔

单变量时间序列数据集

墨尔本每日最低温度
墨尔本每日最高温度
加利福尼亚每日女性出生
每月国际航空公司乘客
每月波士顿武装抢劫
每月太阳黑子
每月香槟销售
每月洗发水销售
每月汽车销售
诺丁汉城堡每月平均温度
每月专业书写纸销售
巴尔的摩每年水使用量

多变量时间序列数据集

北京每小时污染水平
每分钟单个家庭电力消耗
使用智能手机的人类活动识别
室内运动预测

搜集汇总

数据集介绍

构建方式

Machine Learning Datasets数据集的构建旨在为MachineLearningMastery.com上的教程提供稳定的机器学习数据资源。为了保证教程中使用的数据集的持续可用性，避免对不可靠第三方的依赖，该数据集以压缩文件形式被复制并保存在GitHub仓库中。数据集涵盖了从二分类问题到多分类问题，再到回归问题，以及单变量和多变量时间序列分析等多种类型，确保了其广泛性与实用性。

特点

本数据集集合了多种不同类型的机器学习数据，不仅包括常用的二分类数据集如乳腺癌数据，还包括多分类问题中的玻璃识别和葡萄酒质量数据，以及回归分析中的波士顿房价数据等。此外，它还包含了丰富的单变量和多变量时间序列数据，如北京小时污染水平、智能手机的人类活动识别数据等，为研究者提供了多样化的数据选择。每一数据集均维持原始状态，确保了其在不同教程中的适用性和一致性。

使用方法

使用该数据集时，用户可从GitHub仓库直接下载所需的数据集文件。由于教程通常会直接链接到原始数据集的URL，因此建议用户在将数据集添加到仓库后不要更改文件名，以避免造成链接失效。用户可以根据自身需求选择合适的数据集进行机器学习模型的训练与测试，同时，数据集的多样性也为开展不同类型的数据分析和模型构建提供了便利。

背景与挑战

背景概述

Machine Learning Datasets是一组用于机器学习教学的数据集，旨在确保MachineLearningMastery.com教程中所使用的数据集的稳定可用性，不受不可靠第三方的影响。该数据集由MachineLearningMastery.com创建并维护，包含了多种类型的机器学习数据集，旨在为机器学习从业者提供便捷的数据资源，进而推动机器学习领域的教育和研究工作。数据集涵盖了二分类、多分类、回归以及单变量和多变量时间序列等多个领域，自创建以来，已被广泛引用，对机器学习领域的教育和实践产生了深远的影响。

当前挑战

尽管Machine Learning Datasets在教育和研究领域具有重要价值，但构建此类数据集仍面临诸多挑战。首先，数据集的多样性和质量是关键，需确保涵盖不同类型的机器学习问题，并保持数据准确性。其次，数据集的维护和更新需要持续的努力，以适应不断变化的机器学习教程和技术需求。此外，数据集的稳定性和可访问性也是一大挑战，需要确保数据集不依赖于不可靠的第三方资源，以保障数据的长期可用性。

常用场景

经典使用场景

在机器学习研究领域，Machine Learning Datasets数据集被广泛用于教学和模型训练。其经典使用场景在于为机器学习初学者提供易于理解和处理的样本数据，涵盖了二分类、多分类、回归以及单变量和多变量时间序列等多种类型的数据集，从而帮助学者快速熟悉不同类型的数据处理方法和建模流程。

衍生相关工作

基于这些数据集，学术界衍生出了众多经典工作，如改进算法性能的研究、新型数据预处理技术的探索、以及针对特定数据集特征设计的模型架构。这些相关工作不断推动机器学习领域的理论进步和技术发展。

数据集最近研究