Machine Learning Datasets

github2020-06-17 更新2024-05-31 收录

下载链接：

https://github.com/vishnuchandrappan/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含机器学习教程中使用的数据集副本，确保教程中使用的数据集持续可用且不依赖于不可靠的第三方。所有回归和分类问题的CSV文件均无表头行，列间无空格，目标列为最后一列，缺失值用问号标记。

This repository contains replicas of datasets used in machine learning tutorials, ensuring the datasets utilized in the tutorials remain consistently available and are not dependent on unreliable third-party sources. All CSV files for regression and classification problems lack header rows, have no spaces between columns, feature the target column as the last column, and mark missing values with a question mark.

创建时间：

2020-01-17

原始信息汇总

数据集概述

分类问题数据集

二分类数据集

Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
Breast Cancer (Yugoslavia) (breast-cancer.csv)
Breast Cancer (Habermans) (haberman.csv)
Bank Note Authentication (banknote_authentication.csv)
Horse Colic (horse-colic.csv)
Ionosphere (ionosphere.csv)
Pima Indians Diabetes (pima-indians-diabetes.csv)
Sonar Returns (sonar.csv)
German Credit (german.csv)
Credit Card Fraud (creditcard.csv.zip)
Adult Income (adult-all.csv)
Mammography (mammography.csv)
Oil Spill (oil-spill.csv)
Phoneme (phoneme.csv)

多分类数据集

Glass Identification (glass.csv)
Iris Flower Species (iris.csv)
Wheat Seeds (wheat-seeds.csv)
Wine (wine.csv)
Ecoli (ecoli.csv)
Thyroid Gland (new-thyroid.csv)

回归问题数据集

Boston Housing (housing.csv)
Auto Insurance Total Claims (auto-insurance.csv)
Auto Imports Prices (auto_imports.csv)
Abalone Age (abalone.csv)
Wine Quality Red (winequality-red.csv)
Wine Quality White (winequality-white.csv)

时间序列数据集

单变量时间序列数据集

Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
Daily Female Births in California (daily-total-female-births.csv)
Monthly International Airline Passengers (monthly-airline-passengers.csv)
Monthly Armed Robberies in Boston (monthly-robberies.csv)
Monthly Sunspots (monthly-sunspots.csv)
Monthly Champagne Sales (monthly_champagne_sales.csv)
Monthly Shampoo Sales (monthly-shampoo-sales.csv)
Monthly Car Sales (monthly-car-sales.csv)
Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
Yearly Water Usage in Baltimore (yearly-water-usage.csv)

多变量时间序列数据集

Hourly Pollution Levels in Beijing
Minutely Individual Household Electric Power Consumption
Human Activity Recognition Using Smartphones
Indoor Movement Prediction
Yearly Longley Economic Employment

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在为机器学习教程提供稳定且可靠的数据源，避免依赖不可靠的第三方数据。所有数据集均以CSV格式存储，文件结构统一，无表头行，列间无空格，目标变量位于最后一列，缺失值以问号字符标记。为确保教程链接的有效性，数据集文件名一旦添加至仓库便不再更改。

使用方法

用户可通过GitHub仓库直接访问数据集文件，或通过教程中的链接获取原始数据。数据集文件可直接加载至机器学习框架中，如Pandas或NumPy，进行数据预处理和模型训练。对于时间序列数据，用户可根据需求进行时间窗口划分或特征工程，以适配不同的预测任务。

背景与挑战

背景概述

Machine Learning Datasets 数据集由 MachineLearningMastery.com 创建，旨在为机器学习教程提供稳定且易于访问的数据资源。该数据集涵盖了多种机器学习任务，包括二分类、多分类、回归以及时间序列分析等。其创建初衷是为了避免依赖不可靠的第三方数据源，确保教程中使用的数据集能够长期可用。数据集中的文件格式统一，目标变量位于最后一列，缺失值以问号标记，便于用户直接使用。该数据集在机器学习教育和研究中具有广泛的影响力，为初学者和研究人员提供了丰富的实验数据。

当前挑战

Machine Learning Datasets 数据集在解决机器学习领域问题时面临多重挑战。首先，数据集的多样性和复杂性要求用户具备较高的数据处理能力，尤其是在处理缺失值和数据标准化时。其次，时间序列数据的动态特性增加了模型训练的难度，需要更复杂的算法来处理时间依赖性。此外，数据集的构建过程中，确保数据的准确性和一致性是一项重要挑战，特别是在整合来自不同来源的数据时。最后，数据集的长期维护和更新也需要持续投入，以应对数据源变化或数据格式更新的需求。

常用场景

经典使用场景

在机器学习领域，该数据集广泛应用于教学和研究中，特别是在分类和回归问题的教学示例中。数据集如Iris Flower Species和Boston Housing常被用于展示基本的机器学习算法，如决策树、支持向量机和神经网络的应用。这些数据集因其简单性和代表性，成为初学者理解机器学习概念的首选。

解决学术问题

该数据集解决了机器学习研究中数据可用性和一致性的问题。通过提供标准化的数据集，研究者可以更容易地复现和验证算法性能，从而推动算法比较和优化的研究。例如，Pima Indians Diabetes数据集常用于糖尿病预测模型的开发，帮助研究者评估不同算法在医疗诊断中的应用效果。

实际应用

在实际应用中，这些数据集被用于多个行业，如金融、医疗和零售。例如，Credit Card Fraud数据集用于开发欺诈检测系统，而Wine Quality数据集则用于食品和饮料行业的品质控制。这些应用不仅提高了行业的自动化水平，还增强了数据驱动的决策能力。

数据集最近研究