five

Machine Learning Datasets

收藏
github2020-04-15 更新2024-05-31 收录
下载链接:
https://github.com/swetabehera04/Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含MachineLearningMastery.com教程中使用的机器学习数据集副本。所有回归和分类问题的CSV文件均无标题行,列之间无空格,目标为最后一列,缺失值用问号标记。

This repository contains copies of the machine learning datasets used in the tutorials from MachineLearningMastery.com. All CSV files for regression and classification problems have no header row, no spaces between columns, with the target as the last column, and missing values are marked with a question mark.
创建时间:
2019-11-14
原始信息汇总

数据集概述

分类数据集

二分类数据集
  • Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
  • Breast Cancer (Yugoslavia) (breast-cancer.csv)
  • Breast Cancer (Habermans) (haberman.csv)
  • Bank Note Authentication (banknote_authentication.csv)
  • Horse Colic (horse-colic.csv)
  • Ionosphere (ionosphere.csv)
  • Pima Indians Diabetes (pima-indians-diabetes.csv)
  • Sonar Returns (sonar.csv)
  • German Credit (german.csv)
  • Credit Card Fraud (creditcard.csv.zip)
  • Adult Income (adult-all.csv)
  • Mammography (mammography.csv)
  • Oil Spill (oil-spill.csv)
  • Phoneme (phoneme.csv)
多分类数据集
  • Glass Identification (glass.csv)
  • Iris Flower Species (iris.csv)
  • Wheat Seeds (wheat-seeds.csv)
  • Wine (wine.csv)
  • Ecoli (ecoli.csv)
  • Thyroid Gland (new-thyroid.csv)

回归数据集

  • Boston Housing (housing.csv)
  • Auto Insurance Total Claims (auto-insurance.csv)
  • Auto Imports Prices (auto_imports.csv)
  • Abalone Age (abalone.csv)
  • Wine Quality Red (winequality-red.csv)
  • Wine Quality White (winequality-white.csv)

时间序列数据集

单变量时间序列数据集
  • Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
  • Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
  • Daily Female Births in California (daily-total-female-births.csv)
  • Monthly International Airline Passengers (monthly-airline-passengers.csv)
  • Monthly Armed Robberies in Boston (monthly-robberies.csv)
  • Monthly Sunspots (monthly-sunspots.csv)
  • Monthly Champagne Sales (monthly_champagne_sales.csv)
  • Monthly Shampoo Sales (monthly-shampoo-sales.csv)
  • Monthly Car Sales (monthly-car-sales.csv)
  • Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
  • Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
  • Yearly Water Usage in Baltimore (yearly-water-usage.csv)
多变量时间序列数据集
  • Hourly Pollution Levels in Beijing
  • Minutely Individual Household Electric Power Consumption
  • Human Activity Recognition Using Smartphones
  • Indoor Movement Prediction
  • Yearly Longley Economic Employment
搜集汇总
数据集介绍
main_image_url
构建方式
Machine Learning Datasets数据集的构建主要旨在确保MachineLearningMastery.com教程中所使用的机器学习数据集的持续可用性,避免对不可靠第三方资源的依赖。该数据集涵盖了回归、分类和时序分析等多个领域的问题,所有数据集均以CSV文件格式存储,其中回归和分类问题的CSV文件无表头,列之间无空格,目标变量位于最后一列,缺失值用问号 '?' 标记。
使用方法
使用该数据集时,用户可以直接从GitHub仓库中下载所需的CSV文件。数据集的文件名应保持不变,以确保教程中的链接能够直接访问到相应的数据文件。针对不同类型的数据集,用户可以根据自己的研究需求进行相应的预处理和分析,例如处理缺失值、特征选择等,进而应用于机器学习模型的训练和评估中。
背景与挑战
背景概述
Machine Learning Datasets是一个收集了多种机器学习教程中使用的经典数据集的仓库。其创建旨在确保教程中所用数据集的持续可用性,并减少对不可靠第三方的依赖。该数据集包含了二分类、多分类、回归以及单变量和多变量时间序列等多种类型的数据集,广泛应用于机器学习的各类问题研究中。它由MachineLearningMastery.com网站创建,并持续更新,对机器学习领域的研究与实践具有重要的影响力。
当前挑战
该数据集的构建过程中面临的挑战主要包括:确保数据集的稳定性和可靠性,避免因第三方服务不稳定而导致的数据不可用;同时,数据集需要适应不断变化的机器学习教程需求,保持其与教程的同步更新。此外,针对数据集的使用,研究人员面临的挑战是如何有效处理数据中的缺失值,以及如何根据不同的机器学习问题选择合适的数据集。
常用场景
经典使用场景
在机器学习领域,Machine Learning Datasets数据集常被用于教程中,以演示和教授回归与分类算法的应用。该数据集包含了二元分类、多分类、回归以及单变量和多变量时间序列等多种类型的机器学习问题,其标准化格式确保了数据的一致性和易于处理性,使得研究人员和开发者可以专注于模型的选择与优化。
解决学术问题
该数据集解决了学术研究中数据来源的可靠性和稳定性问题,避免了因第三方数据源的不稳定而影响研究的连续性。此外,它还提供了多种类型的数据,帮助研究人员解决不同领域的实际问题,如医疗诊断、金融欺诈检测、环境监测等,对于推动机器学习技术在各领域的应用具有重要意义。
实际应用
实际应用中,Machine Learning Datasets数据集广泛用于开发预测模型,例如,银行可以使用该数据集中的信用卡欺诈数据来训练模型,以提高欺诈检测的准确性。环境监测机构可能利用时间序列数据来预测空气质量或气候变化趋势。这些应用场景展示了数据集在实际问题解决中的重要作用。
数据集最近研究
最新研究方向
在机器学习领域,Machine Learning Datasets数据集被广泛应用于各类算法的研究与验证。近期,研究者们利用该数据集中的二分类和多分类数据,如乳腺癌和信用卡欺诈检测,深入探索了深度学习模型在医疗和金融行业的应用。同时,在回归分析方面,研究者正尝试通过这些数据集,如波士顿房价和汽车保险索赔,来提高预测模型的准确性和泛化能力。此外,时间序列数据如每日气温变化和月度销售数据,正被用于测试和优化时序预测算法,以应对气候变化和商业销售趋势分析等挑战。这些研究不仅推动了机器学习技术的进步,也对相关行业的发展产生了深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作