多种数据集

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/jbrownlee/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含用于MachineLearningMastery.com教程中的机器学习数据集，涵盖二分类、多分类、回归、单变量和多变量时间序列等多种类型的数据集。

This repository contains machine learning datasets used in the tutorials of MachineLearningMastery.com, covering a variety of data types including binary classification, multi-class classification, regression, univariate and multivariate time series.

创建时间：

2018-03-10

原始信息汇总

数据集概述

本数据集包含多种类型的机器学习数据集，用于MachineLearningMastery.com上的教程。数据集分为以下几类：

二分类数据集

Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
Breast Cancer (Yugoslavia) (breast-cancer.csv)
Breast Cancer (Habermans) (haberman.csv)
Bank Note Authentication (banknote_authentication.csv)
Horse Colic (horse-colic.csv)
Ionosphere (ionosphere.csv)
Pima Indians Diabetes (pima-indians-diabetes.csv)
Sonar Returns (sonar.csv)
German Credit (german.csv)
Credit Card Fraud (creditcard.csv.zip)
Adult Income (adult-all.csv)
Mammography (mammography.csv)
Oil Spill (oil-spill.csv)
Phoneme (phoneme.csv)

多分类数据集

Glass Identification (glass.csv)
Iris Flower Species (iris.csv)
Wheat Seeds (wheat-seeds.csv)
Wine (wine.csv)
Ecoli (ecoli.csv)
Thyroid Gland (new-thyroid.csv)

回归数据集

Boston Housing (housing.csv)
Auto Insurance Total Claims (auto-insurance.csv)
Auto Imports Prices (auto_imports.csv)
Abalone Age (abalone.csv)
Wine Quality Red (winequality-red.csv)
Wine Quality White (winequality-white.csv)

单变量时间序列数据集

Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
Daily Female Births in California (daily-total-female-births.csv)
Monthly International Airline Passengers (monthly-airline-passengers.csv)
Monthly Armed Robberies in Boston (monthly-robberies.csv)
Monthly Sunspots (monthly-sunspots.csv)
Monthly Champagne Sales (monthly_champagne_sales.csv)
Monthly Shampoo Sales (monthly-shampoo-sales.csv)
Monthly Car Sales (monthly-car-sales.csv)
Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
Yearly Water Usage in Baltimore (yearly-water-usage.csv)

多变量时间序列数据集

Hourly Pollution Levels in Beijing (pollution.csv)
Minutely Individual Household Electric Power Consumption (household_power_consumption.zip)
Human Activity Recognition Using Smartphones (HAR_Smartphones.zip)
Indoor Movement Prediction (IndoorMovement.zip)
Yearly Longley Economic Employment (longley.csv)

自然语言处理数据集

Flickr 8k Photo Caption Dataset (Flickr8k_Dataset.zip, Flickr8k_text.zip)
Movie Review Polarity (review_polarity.tar.gz)
German to English Translation (deu-eng.txt)
The Republic, by Plato (republic.txt)

ARFF数据集

Weka UCI Datasets (weka-datasets.zip)
Weka Numeric Datasets (weka-datasets-numeric.zip)

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在确保机器学习教程中使用的数据集的持久性和可靠性，避免依赖于不可靠的第三方来源。所有回归和分类问题的CSV文件均遵循统一格式：无表头行，列间无空白，目标变量位于最后一列，缺失值以问号字符（'?'）标记。此标准化处理确保了数据集在不同教程中的兼容性和一致性。

使用方法

用户可通过直接访问GitHub仓库中的数据集文件进行下载和使用。对于需要特定格式的教程，数据集已预先处理，用户只需按照教程指引加载数据即可。建议在使用前检查数据集的README文件，以获取关于数据集的详细信息和使用注意事项。

背景与挑战

背景概述

多种数据集（Machine Learning Datasets）是由MachineLearningMastery.com创建并维护的一个综合性机器学习数据集库。该数据集库的创建旨在确保教程中使用的数据集长期可用，并减少对第三方数据源的依赖。数据集涵盖了二分类、多分类、回归、单变量时间序列、多变量时间序列、自然语言处理等多个领域，包括乳腺癌、银行票据认证、波士顿房价等经典问题。这些数据集不仅为初学者提供了丰富的实践材料，也为高级研究者提供了多样化的研究资源，极大地推动了机器学习领域的教育和研究进展。

当前挑战

多种数据集在构建和维护过程中面临多项挑战。首先，数据集的多样性要求在处理不同类型的数据时需采用不同的预处理方法，如缺失值处理、数据标准化等。其次，数据集的长期可用性依赖于持续的更新和维护，确保数据源的可靠性和时效性。此外，数据集的文件格式和结构需保持一致，以适应不同教程和研究的需求，避免因格式变化导致的兼容性问题。最后，数据集的隐私和安全问题也不容忽视，特别是在涉及个人敏感信息的数据处理中，需严格遵守相关法律法规。

常用场景

经典使用场景

在机器学习领域，该数据集广泛应用于分类和回归任务的教程中。例如，乳腺癌数据集（如Wisconsin、Yugoslavia和Haberman's）常用于二分类问题的教学，帮助学生理解如何处理不平衡数据和缺失值。此外，波士顿房价数据集（housing.csv）是回归分析的经典案例，用于教授特征选择和模型评估技术。

解决学术问题

该数据集解决了机器学习教学中常见的数据获取和可用性问题。通过提供稳定且标准化的数据集，它确保了教学材料的连续性和一致性，避免了因第三方数据源不可靠而导致的教学中断。此外，数据集的统一格式（如无表头、目标变量在最后一列、缺失值标记为'?'）简化了数据预处理步骤，使学生能够专注于模型构建和评估。

实际应用

在实际应用中，该数据集被广泛用于开发和测试机器学习算法。例如，信用卡欺诈检测数据集（creditcard.csv.zip）被金融机构用于构建和优化欺诈检测模型，以提高交易安全性。同样，时间序列数据集（如墨尔本每日最低温度和国际航空公司乘客数量）被用于预测和规划，帮助企业和政府做出更有效的决策。

数据集最近研究