five

Machine Learning Datasets

收藏
github2020-04-03 更新2024-05-31 收录
下载链接:
https://github.com/Santosh051985/Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含MachineLearningMastery.com教程中使用的机器学习数据集副本。所有回归和分类问题的CSV文件均无标题行,列间无空格,目标为最后一列,缺失值用问号(?)标记。

This repository contains copies of the machine learning datasets used in the tutorials from MachineLearningMastery.com. All CSV files for regression and classification problems are without header rows, with no spaces between columns, the target is the last column, and missing values are marked with a question mark (?).
创建时间:
2019-12-22
原始信息汇总

数据集概述

分类

二分类数据集
  • Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
  • Breast Cancer (Yugoslavia) (breast-cancer.csv)
  • Breast Cancer (Habermans) (haberman.csv)
  • Bank Note Authentication (banknote_authentication.csv)
  • Horse Colic (horse-colic.csv)
  • Ionosphere (ionosphere.csv)
  • Pima Indians Diabetes (pima-indians-diabetes.csv)
  • Sonar Returns (sonar.csv)
  • German Credit (german.csv)
  • Credit Card Fraud (creditcard.csv.zip)
  • Adult Income (adult-all.csv)
  • Mammography (mammography.csv)
  • Oil Spill (oil-spill.csv)
  • Phoneme (phoneme.csv)
多分类数据集
  • Glass Identification (glass.csv)
  • Iris Flower Species (iris.csv)
  • Wheat Seeds (wheat-seeds.csv)
  • Wine (wine.csv)
  • Ecoli (ecoli.csv)
  • Thyroid Gland (new-thyroid.csv)

回归

  • Boston Housing (housing.csv)
  • Auto Insurance Total Claims (auto-insurance.csv)
  • Auto Imports Prices (auto_imports.csv)
  • Abalone Age (abalone.csv)
  • Wine Quality Red (winequality-red.csv)
  • Wine Quality White (winequality-white.csv)

时间序列

单变量时间序列
  • Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
  • Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
  • Daily Female Births in California (daily-total-female-births.csv)
  • Monthly International Airline Passengers (monthly-airline-passengers.csv)
  • Monthly Armed Robberies in Boston (monthly-robberies.csv)
  • Monthly Sunspots (monthly-sunspots.csv)
  • Monthly Champagne Sales (monthly_champagne_sales.csv)
  • Monthly Shampoo Sales (monthly-shampoo-sales.csv)
  • Monthly Car Sales (monthly-car-sales.csv)
  • Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
  • Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
  • Yearly Water Usage in Baltimore (yearly-water-usage.csv)
多变量时间序列
  • Hourly Pollution Levels in Beijing
  • Minutely Individual Household Electric Power Consumption
  • Human Activity Recognition Using Smartphones
  • Indoor Movement Prediction
  • Yearly Longley Economic Employment
搜集汇总
数据集介绍
main_image_url
构建方式
Machine Learning Datasets数据集旨在为机器学习教学提供稳定可靠的数据资源。该数据集通过收集MachineLearningMastery.com教程中使用的各类机器学习数据,确保这些数据集的持续可用性,并避免了依赖于不可靠的第三方资源。数据集包含了回归和分类问题的CSV文件,这些文件格式统一,去除了标题行,列与列之间无空格,目标变量位于最后一列,缺失值则以问号字符表示。
使用方法
使用该数据集时,用户可以直接从GitHub仓库下载所需的数据文件。由于数据集文件格式统一,用户可以方便地将其导入到各种机器学习框架和工具中进行模型训练和测试。针对不同的机器学习任务,用户可以根据教程中的指导,选择合适的数据预处理方法、模型构建策略和评估指标,以实现最佳的学习效果和研究目标。
背景与挑战
背景概述
Machine Learning Datasets数据集是一系列用于机器学习教程的集合,旨在确保教程中使用的数据集保持可用性,并减少对不可靠第三方的依赖。该数据集涵盖了多种机器学习问题,包括二分类、多分类、回归以及单变量和多变量时间序列分析等。该数据集由MachineLearningMastery.com的教程所采用,其创建时间未明确标注,但可推断与该网站教程的发布时间相吻合。核心研究人员或机构为MachineLearningMastery.com的创建者Jason Brownlee。数据集解决了机器学习领域中数据可用性和一致性的问题,对机器学习教程的编写与学习产生了重要影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括数据的收集、清洗以及格式的统一。具体挑战体现在:确保数据集的持续可用性,避免因外部链接失效导致的数据不可访问;数据的预处理,包括去除无效格式、处理缺失值(以问号'?'表示),以及保持数据文件名的稳定性,以便于教程中的直接引用。此外,数据集在解决领域问题时面临的挑战包括如何准确有效地对数据进行分类和回归分析,以及如何从时间序列数据中提取有价值的特征。
常用场景
经典使用场景
Machine Learning Datasets数据集广泛运用于机器学习领域的教学与研究中。经典的使用场景主要是在机器学习教程中,通过这些数据集对分类与回归算法进行实证分析,如利用Breast Cancer Wisconsin数据集进行二分类任务,预测乳腺肿瘤是否为恶性。通过这些数据集,研究者能够直观地理解算法的工作原理与实际效能。
解决学术问题
该数据集解决了机器学习领域中数据获取与验证的难题,提供了标准化的数据格式,有助于学术研究者专注于算法设计与优化,而无需耗费大量时间清洗和预处理数据。它对于常见学术研究问题,如过拟合、模型选择以及特征工程等,提供了实验基础,从而推进了学术研究的进展。
实际应用
在实际应用中,Machine Learning Datasets数据集被广泛应用于银行欺诈检测、疾病预测、物品识别等领域。例如,Credit Card Fraud数据集可用于构建信用欺诈检测模型,以帮助金融机构识别潜在的欺诈行为,从而保障用户的财产安全。
数据集最近研究
最新研究方向
在当前机器学习研究领域,Machine Learning Datasets数据集的应用广泛,其涵盖了从二分类问题到多分类问题,再到回归及时间序列分析等多种类型的机器学习任务。近期研究集中于深度学习模型在这些传统数据集上的表现评估,以及如何通过这些数据集进行模型泛化能力的探讨。此外,该数据集亦被用于开发自动化机器学习工具,以及特征选择和模型选择算法的研究。这些研究不仅推动了机器学习算法的发展,也为实际应用提供了可靠的基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作