five

多种数据集

收藏
github2020-03-09 更新2024-05-31 收录
下载链接:
https://github.com/kanasepratik/Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含用于MachineLearningMastery.com教程中的机器学习数据集,涵盖二分类、多分类、回归和时间序列数据集。

This repository contains machine learning datasets used in the tutorials of MachineLearningMastery.com, covering binary classification, multi-class classification, regression, and time series datasets.
创建时间:
2020-03-09
原始信息汇总

数据集概述

分类问题数据集

二分类数据集
  • Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
  • Breast Cancer (Yugoslavia) (breast-cancer.csv)
  • Breast Cancer (Habermans) (haberman.csv)
  • Bank Note Authentication (banknote_authentication.csv)
  • Horse Colic (horse-colic.csv)
  • Ionosphere (ionosphere.csv)
  • Pima Indians Diabetes (pima-indians-diabetes.csv)
  • Sonar Returns (sonar.csv)
  • German Credit (german.csv)
  • Credit Card Fraud (creditcard.csv.zip)
  • Adult Income (adult-all.csv)
  • Mammography (mammography.csv)
  • Oil Spill (oil-spill.csv)
  • Phoneme (phoneme.csv)
多分类数据集
  • Glass Identification (glass.csv)
  • Iris Flower Species (iris.csv)
  • Wheat Seeds (wheat-seeds.csv)
  • Wine (wine.csv)
  • Ecoli (ecoli.csv)
  • Thyroid Gland (new-thyroid.csv)

回归问题数据集

  • Boston Housing (housing.csv)
  • Auto Insurance Total Claims (auto-insurance.csv)
  • Auto Imports Prices (auto_imports.csv)
  • Abalone Age (abalone.csv)
  • Wine Quality Red (winequality-red.csv)
  • Wine Quality White (winequality-white.csv)

时间序列数据集

单变量时间序列数据集
  • Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
  • Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
  • Daily Female Births in California (daily-total-female-births.csv)
  • Monthly International Airline Passengers (monthly-airline-passengers.csv)
  • Monthly Armed Robberies in Boston (monthly-robberies.csv)
  • Monthly Sunspots (monthly-sunspots.csv)
  • Monthly Champagne Sales (monthly_champagne_sales.csv)
  • Monthly Shampoo Sales (monthly-shampoo-sales.csv)
  • Monthly Car Sales (monthly-car-sales.csv)
  • Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
  • Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
  • Yearly Water Usage in Baltimore (yearly-water-usage.csv)
多变量时间序列数据集
  • Hourly Pollution Levels in Beijing
  • Minutely Individual Household Electric Power Consumption
  • Human Activity Recognition Using Smartphones
  • Indoor Movement Prediction
  • Yearly Longley Economic Employment
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建旨在为机器学习领域的教育及研究提供稳定可靠的数据资源。通过汇集多种机器学习问题相关的CSV文件,并确保其格式统一性,例如去除表头、使用问号标记缺失值等,从而构建了一个易于使用且方便维护的数据集库。
特点
该数据集涵盖了二分类、多分类、回归以及单变量和多变量时间序列等多种类型的机器学习数据。每个数据集均以CSV格式存储,便于机器学习算法的集成与测试。其特点在于数据的多样性和格式的标准化,极大地方便了研究人员和开发者的使用。
使用方法
用户可以直接从GitHub仓库中下载所需数据集。由于数据集的文件名在添加至仓库后不应更改,这确保了教程中数据集链接的持久性和可靠性。用户在获取数据后,可根据自身的算法需求对数据进行预处理,如数据清洗、特征提取等,之后即可用于模型训练和评估。
背景与挑战
背景概述
多种数据集是一系列用于机器学习领域的研究数据集,旨在支持MachineLearningMastery.com网站教程的使用。该数据集的创建旨在确保教程中使用的数据集始终可用,并减少对不可靠第三方的依赖。这些数据集涵盖了二分类、多分类、回归以及单变量和多变量时间序列等多种类型,包含了诸如乳腺癌、信用欺诈、收入预测、环境监测等多个领域的实际数据,为机器学习研究者和从业者提供了丰富的实验材料。自创建以来,该数据集对促进机器学习算法的研究与开发产生了显著影响。
当前挑战
尽管这些数据集为机器学习领域的研究提供了便利,但在使用过程中也面临着一些挑战。首先,数据集的质量和完整性验证是构建过程中的一大挑战,这直接关系到后续模型的可靠性和泛化能力。其次,不同数据集在收集、预处理和标注过程中可能存在偏差,这可能导致模型在真实世界应用中的性能下降。此外,时间序列数据集的动态性和多变量间的相互作用也为模型的准确预测带来了挑战。
常用场景
经典使用场景
该多种数据集广泛运用于机器学习教程中,其经典使用场景主要涵盖回归、分类和时间序列分析等机器学习领域的基础研究与实践。用户可借此深入理解数据预处理、模型构建、训练与评估等流程,进而提升其在机器学习领域的专业技能。
实际应用
在实际应用中,该数据集被广泛用于金融、医疗、环境监测等多个领域的预测分析。例如,通过分析信用卡欺诈数据,能够有效提升金融机构的欺诈检测能力;而通过对气象数据的分析,可以更准确地预测天气变化。
衍生相关工作
基于该数据集,研究者们衍生出大量相关经典工作,包括但不限于改进算法性能、提出新的数据预处理方法以及构建更为复杂的模型架构,这些都进一步推动了机器学习技术在各个领域的应用与普及。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务