多种数据集
收藏github2020-03-02 更新2024-05-31 收录
下载链接:
https://github.com/ShreyashiAgarwal/Datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含用于MachineLearningMastery.com教程的机器学习数据集。这些数据集涵盖了二分类、多分类、回归和时间序列问题,每个数据集都有其特定的用途和格式。
This repository hosts machine learning datasets intended for the tutorials on MachineLearningMastery.com. These datasets cover binary classification, multi-class classification, regression, and time series problems, with each dataset having its own specific purpose and format.
创建时间:
2020-03-02
原始信息汇总
数据集概述
分类
二分类数据集
- Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
- Breast Cancer (Yugoslavia) (breast-cancer.csv)
- Breast Cancer (Habermans) (haberman.csv)
- Bank Note Authentication (banknote_authentication.csv)
- Horse Colic (horse-colic.csv)
- Ionosphere (ionosphere.csv)
- Pima Indians Diabetes (pima-indians-diabetes.csv)
- Sonar Returns (sonar.csv)
- German Credit (german.csv)
- Credit Card Fraud (creditcard.csv.zip)
- Adult Income (adult-all.csv)
- Mammography (mammography.csv)
- Oil Spill (oil-spill.csv)
- Phoneme (phoneme.csv)
多分类数据集
- Glass Identification (glass.csv)
- Iris Flower Species (iris.csv)
- Wheat Seeds (wheat-seeds.csv)
- Wine (wine.csv)
- Ecoli (ecoli.csv)
- Thyroid Gland (new-thyroid.csv)
回归
- Boston Housing (housing.csv)
- Auto Insurance Total Claims (auto-insurance.csv)
- Auto Imports Prices (auto_imports.csv)
- Abalone Age (abalone.csv)
- Wine Quality Red (winequality-red.csv)
- Wine Quality White (winequality-white.csv)
时间序列
单变量时间序列数据集
- Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
- Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
- Daily Female Births in California (daily-total-female-births.csv)
- Monthly International Airline Passengers (monthly-airline-passengers.csv)
- Monthly Armed Robberies in Boston (monthly-robberies.csv)
- Monthly Sunspots (monthly-sunspots.csv)
- Monthly Champagne Sales (monthly_champagne_sales.csv)
- Monthly Shampoo Sales (monthly-shampoo-sales.csv)
- Monthly Car Sales (monthly-car-sales.csv)
- Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
- Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
- Yearly Water Usage in Baltimore (yearly-water-usage.csv)
多变量时间序列数据集
- Hourly Pollution Levels in Beijing
- Minutely Individual Household Electric Power Consumption
- Human Activity Recognition Using Smartphones
- Indoor Movement Prediction
- Yearly Longley Economic Employment
搜集汇总
数据集介绍

构建方式
本数据集通过收集MachineLearningMastery.com教程中使用的机器学习数据集而成,旨在确保教程中的数据集持久可用,不依赖于不可靠的第三方资源。数据集包含回归和分类问题的CSV文件,无表头,列与列之间无空格,目标变量位于最后一列,缺失值以问号 '?' 标记。
特点
该数据集涵盖二分类、多分类、回归以及单变量和多变量时间序列等多种类型的机器学习数据集。所有数据集均以CSV格式存储,便于处理和使用。数据集具有多样性,涉及医疗、金融、生物、环境等多个领域,为机器学习研究者提供了丰富的数据资源。
使用方法
用户可以直接从数据集仓库中获取所需的数据集,并根据数据集的特性和自身的需求进行相应的预处理。由于数据集具有不同的特性,用户在使用时应参考相应的教程或文献,遵循数据集的处理规则,以确保研究结果的准确性和可靠性。
背景与挑战
背景概述
多种数据集是一组用于机器学习教程的集合,旨在确保教程中使用的数据集持续可用,并减少对不可靠第三方资源的依赖。该数据集由MachineLearningMastery.com的教程所使用,涵盖了回归、分类以及时间序列等多种类型的机器学习问题。创建于近年来,该数据集由MachineLearningMastery.com团队维护,为机器学习领域的教育和研究提供了丰富的数据资源,对促进算法的开发和评估起到了重要作用。
当前挑战
该数据集在构建过程中所面临的挑战主要包括确保数据的持续可用性和质量。数据集的挑战在于处理缺失值、保持数据文件的命名一致性,以及确保数据格式适用于不同的机器学习模型。此外,针对领域问题,如二分类和多分类问题,数据集需要解决如何有效表征各类特征,以及如何平衡不同类别样本分布的问题。在时间序列分析中,数据集还需应对如何处理时间序列的长期依赖性和季节性变化等挑战。
常用场景
经典使用场景
在机器学习领域,该数据集被广泛应用于各类算法教程中,以辅助研究者在不同分类与回归问题中进行模型训练与验证。例如,通过使用乳腺癌数据集,研究者可以训练模型以区分良性与恶性肿瘤。
解决学术问题
该数据集解决了机器学习中数据来源的不稳定性问题,确保了学术教程中使用的数据集可持久访问,不受第三方不稳定因素的影响。它为学术研究提供了可靠的数据基础,有助于算法性能的准确评估。
衍生相关工作
基于这些数据集,研究者们衍生出了一系列经典工作,包括但不限于提出新的机器学习算法、改进现有算法的性能,以及开发具有实际应用价值的预测模型。
以上内容由遇见数据集搜集并总结生成



