Machine Learning Datasets

github2020-07-31 更新2024-05-31 收录

下载链接：

https://github.com/shivanigim/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含MachineLearningMastery.com教程中使用的机器学习数据集副本。所有回归和分类问题的CSV文件均无标题行，列之间无空白，目标为最后一列，缺失值标记为问号。

This repository contains copies of machine learning datasets used in the tutorials from MachineLearningMastery.com. All CSV files for regression and classification problems have no header row, no spaces between columns, with the target as the last column, and missing values marked with a question mark.

创建时间：

2020-07-31

原始信息汇总

数据集概述

分类问题数据集

二分类数据集

Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
Breast Cancer (Yugoslavia) (breast-cancer.csv)
Breast Cancer (Habermans) (haberman.csv)
Bank Note Authentication (banknote_authentication.csv)
Horse Colic (horse-colic.csv)
Ionosphere (ionosphere.csv)
Pima Indians Diabetes (pima-indians-diabetes.csv)
Sonar Returns (sonar.csv)
German Credit (german.csv)
Credit Card Fraud (creditcard.csv.zip)
Adult Income (adult-all.csv)
Mammography (mammography.csv)
Oil Spill (oil-spill.csv)
Phoneme (phoneme.csv)

多分类数据集

Glass Identification (glass.csv)
Iris Flower Species (iris.csv)
Wheat Seeds (wheat-seeds.csv)
Wine (wine.csv)
Ecoli (ecoli.csv)
Thyroid Gland (new-thyroid.csv)

回归问题数据集

Boston Housing (housing.csv)
Auto Insurance Total Claims (auto-insurance.csv)
Auto Imports Prices (auto_imports.csv)
Abalone Age (abalone.csv)
Wine Quality Red (winequality-red.csv)
Wine Quality White (winequality-white.csv)

时间序列数据集

单变量时间序列

Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
Daily Female Births in California (daily-total-female-births.csv)
Monthly International Airline Passengers (monthly-airline-passengers.csv)
Monthly Armed Robberies in Boston (monthly-robberies.csv)
Monthly Sunspots (monthly-sunspots.csv)
Monthly Champagne Sales (monthly_champagne_sales.csv)
Monthly Shampoo Sales (monthly-shampoo-sales.csv)
Monthly Car Sales (monthly-car-sales.csv)
Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
Yearly Water Usage in Baltimore (yearly-water-usage.csv)

多变量时间序列

Hourly Pollution Levels in Beijing
Minutely Individual Household Electric Power Consumption
Human Activity Recognition Using Smartphones
Indoor Movement Prediction
Yearly Longley Economic Employment

搜集汇总

数据集介绍

构建方式

该数据集通过整合机器学习教程中常用的数据集构建而成，旨在确保这些数据集在教程中的可用性，避免依赖不可靠的第三方资源。所有回归和分类问题的CSV文件均采用无表头行的格式，列之间无空格，目标变量位于最后一列，缺失值以问号字符（'?'）标记。数据集的文件名一旦添加到仓库中便不应更改，以确保教程中的链接能够直接指向原始数据集。

使用方法

用户可以通过GitHub仓库直接下载所需的数据集文件，并按照教程中的指导进行使用。由于数据集文件格式统一，用户无需进行额外的预处理即可将其导入机器学习框架中。对于时间序列数据集，用户可以根据需求选择单变量或多变量分析，进一步探索数据的时序特性。数据集的使用方法灵活多样，适用于从初学者到高级研究者的不同需求。

背景与挑战

背景概述

Machine Learning Datasets 数据集由 MachineLearningMastery.com 创建，旨在为机器学习教程提供稳定且可靠的数据源。该数据集涵盖了从二元分类、多类分类、回归分析到时间序列分析等多种机器学习任务，广泛应用于教学和研究领域。其创建时间可追溯至该网站教程的早期阶段，主要研究人员为 Jason Brownlee，他通过整合多个经典数据集，确保了数据的多样性和实用性。该数据集不仅为初学者提供了丰富的学习资源，也为研究人员提供了标准化的数据基准，推动了机器学习领域的教学与研究发展。

当前挑战

Machine Learning Datasets 数据集在构建和应用过程中面临多重挑战。首先，数据集的多样性和复杂性要求研究人员具备跨领域的知识储备，以应对不同任务的数据预处理和模型适配问题。其次，数据集的标准化格式（如无表头、目标列位于末尾、缺失值标记为问号等）虽然简化了数据加载，但也增加了数据清洗和特征工程的难度。此外，数据集的时间序列部分对模型的时序预测能力提出了更高要求，尤其是在处理多变量时间序列时，如何有效捕捉变量间的依赖关系成为一大挑战。最后，数据集的长期可用性和版本控制问题也需要持续关注，以确保其在教学和研究中的稳定性。

常用场景

经典使用场景

在机器学习领域，该数据集广泛应用于教学和研究中，特别是在分类和回归问题的算法测试与验证中。例如，Iris Flower Species数据集常用于展示分类算法的性能，而Boston Housing数据集则广泛用于回归模型的训练与评估。这些数据集因其简洁性和代表性，成为机器学习入门和进阶研究的经典工具。

解决学术问题

该数据集解决了机器学习研究中数据获取和标准化的问题。通过提供统一的格式和明确的特征定义，研究者可以专注于算法设计和性能优化，而无需花费大量时间在数据预处理上。例如，Pima Indians Diabetes数据集帮助研究者探索糖尿病预测模型，而Credit Card Fraud数据集则为欺诈检测算法的开发提供了重要支持。

实际应用

在实际应用中，这些数据集被广泛用于金融、医疗、环境监测等领域。例如，Bank Note Authentication数据集用于银行票据真伪识别，而Hourly Pollution Levels in Beijing数据集则用于城市空气质量预测。这些数据集为实际问题的解决提供了可靠的数据基础，推动了相关领域的技术进步。

数据集最近研究