Machine Learning Datasets

github2021-07-13 更新2024-05-31 收录

下载链接：

https://github.com/jbbilleau/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含MachineLearningMastery.com教程中使用的机器学习数据集副本。创建此仓库是为了确保教程中使用的数据集保持可用，并不依赖于不可靠的第三方。

This repository contains copies of the machine learning datasets used in the tutorials from MachineLearningMastery.com. It was created to ensure that the datasets used in the tutorials remain accessible and are not dependent on unreliable third parties.

创建时间：

2019-07-27

原始信息汇总

Machine Learning Datasets Summary

Overview

This repository hosts a collection of machine learning datasets utilized in tutorials on MachineLearningMastery.com. The datasets are preserved to ensure their availability and independence from unreliable third-party sources.

Dataset Categories

Binary Classification Datasets

Breast Cancer (Wisconsin)
Breast Cancer (Yugoslavia)
Bank Note Authentication
Horse Colic
Ionosphere
Pima Indians Diabetes
Sonar Returns

Multiclass Classification Datasets

Glass Identification
Iris Flower Species
Wheat Seeds
Abalone Age (or regression)
Wine Quality (or regression)

Regression Datasets

Boston Housing
Longley Economic
Auto Insurance Total Claims

Univariate Time Series Datasets

Daily Minimum Temperatures in Melbourne
Daily Maximum Temperatures in Melbourne
Daily Female Births in California
Monthly International Airline Passengers
Monthly Armed Robberies in Boston
Monthly Sunspots
Monthly Champagne Sales
Monthly Shampoo Sales
Monthly Car Sales
Monthly Mean Temperatures in Nottingham Castle
Monthly Specialty Writing Paper Sales
Yearly Water Usage in Baltimore

Multivariate Time Series Datasets

Hourly Pollution Levels in Beijing
Minutely Individual Household Electric Power Consumption
Human Activity Recognition Using Smartphones
Indoor Movement Prediction

搜集汇总

数据集介绍

构建方式

该数据集由MachineLearningMastery.com的教程中使用的机器学习数据集组成，旨在确保教程中使用的数据集能够长期可用，避免依赖不可靠的第三方资源。数据集通过直接链接到原始数据文件的URL进行引用，因此数据集的文件名在添加到仓库后不应更改。

使用方法

用户可以通过GitHub仓库直接访问数据集文件，或通过教程中的链接获取原始数据。数据集文件以CSV格式存储，便于使用常见的机器学习工具（如Pandas、NumPy等）进行加载和处理。用户可根据具体任务选择相应的数据集，并通过数据预处理、特征工程等步骤构建机器学习模型。

背景与挑战

背景概述

Machine Learning Datasets 数据集由 MachineLearningMastery.com 创建，旨在为机器学习教程提供稳定且易于访问的数据资源。该数据集涵盖了从二元分类、多元分类到回归分析及时间序列分析等多个领域的经典数据集，如威斯康星乳腺癌数据集、鸢尾花数据集、波士顿房价数据集等。这些数据集广泛应用于机器学习算法的教学与研究中，为初学者和研究人员提供了标准化的数据基础。通过集中管理这些数据集，该资源库确保了数据的长期可用性，减少了对第三方数据源的依赖，从而提升了研究的可重复性和可靠性。

当前挑战

该数据集的主要挑战在于其多样性和复杂性。首先，数据集涵盖了多个机器学习任务类型，如分类、回归和时间序列分析，这要求研究人员具备跨领域的知识储备。其次，部分数据集涉及高维数据或时间序列数据，这对数据预处理和特征工程提出了更高的要求。此外，尽管数据集经过标准化处理，但不同数据源之间的格式差异仍可能导致兼容性问题。最后，随着机器学习技术的快速发展，如何确保数据集的时效性和适用性，以适应新兴算法的需求，也是一个持续的挑战。

常用场景

经典使用场景

在机器学习的教学与研究领域，Machine Learning Datasets 数据集被广泛用于教学演示和算法验证。该数据集涵盖了从二元分类、多元分类到回归分析以及时间序列预测的多种数据类型，为学习者提供了一个全面的实践平台。特别是在机器学习入门课程中，这些数据集常被用来展示不同算法的性能和应用场景。

解决学术问题

该数据集解决了机器学习领域中数据获取不稳定和不可靠的问题，确保了教学和研究工作的连续性。通过提供多样化的数据集，研究者可以验证和比较不同算法在相同数据上的表现，从而推动算法的优化和创新。此外，这些数据集还为学术界提供了一个标准化的基准，促进了研究成果的可重复性和可比性。

实际应用

在实际应用中，Machine Learning Datasets 数据集被广泛应用于金融、医疗、环境监测等多个领域。例如，银行票据认证数据集可用于开发欺诈检测系统，而乳腺癌数据集则有助于医疗诊断模型的训练。时间序列数据集如北京每小时污染水平数据，则为环境监测和预测提供了重要支持。

数据集最近研究