five

Machine Learning Datasets

收藏
github2020-05-27 更新2024-05-31 收录
下载链接:
https://github.com/moncybigdata/Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含机器学习教程中使用的数据集副本,确保教程中使用的数据集持续可用且不依赖于不可靠的第三方。所有回归和分类问题的CSV文件均无标题行,列间无空格,目标为最后一列,缺失值标记为问号。

This repository contains replicas of datasets used in machine learning tutorials, ensuring the continuous availability of datasets utilized in the tutorials without reliance on unreliable third parties. All CSV files for regression and classification problems lack header rows, have no spaces between columns, target the last column, and mark missing values with a question mark.
创建时间:
2020-05-27
原始信息汇总

数据集概述

分类问题数据集

二分类问题数据集
  • Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
  • Breast Cancer (Yugoslavia) (breast-cancer.csv)
  • Breast Cancer (Habermans) (haberman.csv)
  • Bank Note Authentication (banknote_authentication.csv)
  • Horse Colic (horse-colic.csv)
  • Ionosphere (ionosphere.csv)
  • Pima Indians Diabetes (pima-indians-diabetes.csv)
  • Sonar Returns (sonar.csv)
  • German Credit (german.csv)
  • Credit Card Fraud (creditcard.csv.zip)
  • Adult Income (adult-all.csv)
  • Mammography (mammography.csv)
  • Oil Spill (oil-spill.csv)
  • Phoneme (phoneme.csv)
多分类问题数据集
  • Glass Identification (glass.csv)
  • Iris Flower Species (iris.csv)
  • Wheat Seeds (wheat-seeds.csv)
  • Wine (wine.csv)
  • Ecoli (ecoli.csv)
  • Thyroid Gland (new-thyroid.csv)

回归问题数据集

  • Boston Housing (housing.csv)
  • Auto Insurance Total Claims (auto-insurance.csv)
  • Auto Imports Prices (auto_imports.csv)
  • Abalone Age (abalone.csv)
  • Wine Quality Red (winequality-red.csv)
  • Wine Quality White (winequality-white.csv)

时间序列数据集

单变量时间序列数据集
  • Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
  • Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
  • Daily Female Births in California (daily-total-female-births.csv)
  • Monthly International Airline Passengers (monthly-airline-passengers.csv)
  • Monthly Armed Robberies in Boston (monthly-robberies.csv)
  • Monthly Sunspots (monthly-sunspots.csv)
  • Monthly Champagne Sales (monthly_champagne_sales.csv)
  • Monthly Shampoo Sales (monthly-shampoo-sales.csv)
  • Monthly Car Sales (monthly-car-sales.csv)
  • Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
  • Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
  • Yearly Water Usage in Baltimore (yearly-water-usage.csv)
多变量时间序列数据集
  • Hourly Pollution Levels in Beijing
  • Minutely Individual Household Electric Power Consumption
  • Human Activity Recognition Using Smartphones
  • Indoor Movement Prediction
  • Yearly Longley Economic Employment
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合机器学习教程中常用的数据集构建而成,旨在确保这些数据集在教程中的可用性,避免依赖不可靠的第三方资源。所有数据集均以CSV格式存储,文件结构统一,目标变量位于最后一列,缺失值以问号标记。数据集的文件名一经添加便不再更改,以确保教程中的链接能够直接指向原始数据。
特点
该数据集涵盖了多种机器学习任务,包括二分类、多分类、回归以及单变量和多变量时间序列预测。每个数据集均经过精心挑选,具有明确的特征和目标变量,适用于不同的机器学习算法验证和模型训练。数据集的结构简洁,便于直接加载和处理,适合初学者和研究人员快速上手。
使用方法
用户可以通过GitHub仓库直接下载所需的数据集文件,或通过教程中提供的链接访问原始数据。由于数据集文件格式统一,用户可直接使用常见的机器学习工具(如Pandas、Scikit-learn等)进行加载和分析。对于时间序列数据,用户可根据需求进行时间维度的切分和特征工程,以适配不同的预测任务。
背景与挑战
背景概述
Machine Learning Datasets 数据集由 MachineLearningMastery.com 创建,旨在为机器学习教程提供稳定且可靠的数据源。该数据集涵盖了多种机器学习任务,包括二分类、多分类、回归以及时间序列分析等。其创建时间可追溯至该网站教程的早期阶段,主要研究人员为 Jason Brownlee,他通过该数据集确保了教程的连贯性和可重复性。该数据集在机器学习教育领域具有重要影响力,为初学者和研究者提供了丰富的实践材料,推动了机器学习技术的普及与应用。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,尽管数据集覆盖了广泛的机器学习任务,但其规模相对较小,难以满足深度学习等复杂模型的需求。其次,在构建过程中,数据集的创建者需要确保数据的完整性和一致性,尤其是在处理缺失值和数据格式标准化方面。此外,数据集的长期维护也面临挑战,需确保数据源的稳定性和可访问性,避免因第三方数据源失效而影响教程的可用性。
常用场景
经典使用场景
在机器学习的教学和研究中,Machine Learning Datasets数据集被广泛应用于各种算法的测试和验证。特别是在分类和回归问题的教学中,这些数据集提供了标准化的数据格式,便于学生和研究人员快速上手和理解算法的基本原理。例如,Iris Flower Species数据集常用于展示多类分类问题,而Boston Housing数据集则常用于回归模型的演示。
解决学术问题
该数据集解决了机器学习领域中数据获取和标准化的问题。通过提供一系列经过预处理和格式化的数据集,研究人员可以专注于算法设计和性能优化,而不必花费大量时间在数据清洗和准备上。此外,这些数据集涵盖了从二元分类到多元时间序列分析的多种问题类型,为不同领域的研究提供了丰富的数据支持。
衍生相关工作
基于Machine Learning Datasets数据集,许多经典的研究工作得以展开。例如,利用Pima Indians Diabetes数据集,研究人员开发了多种糖尿病预测模型;而基于Monthly International Airline Passengers数据集,时间序列分析领域的研究取得了显著进展。这些衍生工作不仅丰富了机器学习的研究内容,还为实际问题的解决提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作