five

Machine Learning Datasets

收藏
github2020-08-07 更新2024-05-31 收录
下载链接:
https://github.com/mdJawad006/Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含MachineLearningMastery.com教程中使用的机器学习数据集副本。这些数据集包括二分类、多分类、回归和时间序列数据集,用于确保教程中使用的数据集可访问且不依赖于不可靠的第三方。

This repository contains replicas of the machine learning datasets used in the tutorials from MachineLearningMastery.com. These datasets encompass binary classification, multi-class classification, regression, and time series datasets, ensuring that the datasets utilized in the tutorials are accessible and not reliant on unreliable third parties.
创建时间:
2020-08-07
原始信息汇总

数据集概述

分类问题数据集

二分类问题数据集
  • Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
  • Breast Cancer (Yugoslavia) (breast-cancer.csv)
  • Breast Cancer (Habermans) (haberman.csv)
  • Bank Note Authentication (banknote_authentication.csv)
  • Horse Colic (horse-colic.csv)
  • Ionosphere (ionosphere.csv)
  • Pima Indians Diabetes (pima-indians-diabetes.csv)
  • Sonar Returns (sonar.csv)
  • German Credit (german.csv)
  • Credit Card Fraud (creditcard.csv.zip)
  • Adult Income (adult-all.csv)
  • Mammography (mammography.csv)
  • Oil Spill (oil-spill.csv)
  • Phoneme (phoneme.csv)
多分类问题数据集
  • Glass Identification (glass.csv)
  • Iris Flower Species (iris.csv)
  • Wheat Seeds (wheat-seeds.csv)
  • Wine (wine.csv)
  • Ecoli (ecoli.csv)
  • Thyroid Gland (new-thyroid.csv)

回归问题数据集

  • Boston Housing (housing.csv)
  • Auto Insurance Total Claims (auto-insurance.csv)
  • Auto Imports Prices (auto_imports.csv)
  • Abalone Age (abalone.csv)
  • Wine Quality Red (winequality-red.csv)
  • Wine Quality White (winequality-white.csv)

时间序列数据集

单变量时间序列数据集
  • Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
  • Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
  • Daily Female Births in California (daily-total-female-births.csv)
  • Monthly International Airline Passengers (monthly-airline-passengers.csv)
  • Monthly Armed Robberies in Boston (monthly-robberies.csv)
  • Monthly Sunspots (monthly-sunspots.csv)
  • Monthly Champagne Sales (monthly_champagne_sales.csv)
  • Monthly Shampoo Sales (monthly-shampoo-sales.csv)
  • Monthly Car Sales (monthly-car-sales.csv)
  • Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
  • Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
  • Yearly Water Usage in Baltimore (yearly-water-usage.csv)
多变量时间序列数据集
  • Hourly Pollution Levels in Beijing
  • Minutely Individual Household Electric Power Consumption
  • Human Activity Recognition Using Smartphones
  • Indoor Movement Prediction
  • Yearly Longley Economic Employment
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合机器学习教程中常用的数据集构建而成,旨在确保这些数据集在教程中的可用性,避免依赖不可靠的第三方来源。所有回归和分类问题的CSV文件均采用无表头行、列间无空格、目标变量位于最后一列的格式,缺失值以问号字符标记。数据集文件名一旦添加至仓库后不应更改,以确保教程中的链接能够直接指向原始数据集。
特点
该数据集涵盖了广泛的机器学习任务,包括二分类、多分类、回归以及单变量和多变量时间序列分析。数据集内容丰富,涉及医学、金融、气象等多个领域,如乳腺癌诊断、信用卡欺诈检测、空气质量监测等。每个数据集均经过精心筛选和格式化,确保其适用于机器学习模型的训练和评估。
使用方法
用户可通过GitHub仓库直接访问数据集文件,或通过教程中的链接下载原始数据。数据集文件可直接用于机器学习模型的训练和测试,无需额外的预处理步骤。对于时间序列数据集,用户可根据需求选择单变量或多变量分析,以探索数据中的趋势和模式。
背景与挑战
背景概述
Machine Learning Datasets 数据集由 MachineLearningMastery.com 创建,旨在为机器学习教程提供稳定且可靠的数据源。该数据集涵盖了多种机器学习任务,包括二分类、多分类、回归以及时间序列分析等。其创建背景源于对第三方数据源不稳定性的担忧,确保教程中使用的数据集能够长期可用。数据集的设计遵循统一格式,所有CSV文件均无表头,列间无空格,目标变量位于最后一列,缺失值以问号标记。这一数据集在机器学习教育领域具有重要影响力,为初学者和研究人员提供了丰富的实验材料。
当前挑战
Machine Learning Datasets 数据集在解决机器学习领域的基础问题时面临多重挑战。首先,数据集的多样性和复杂性要求其能够覆盖广泛的机器学习任务,这对数据的选择和预处理提出了较高要求。其次,数据集的构建过程中需确保数据的完整性和一致性,尤其是在处理缺失值和异常值时,需采用科学的方法进行填补或剔除。此外,数据集的长期维护和更新也是一个重要挑战,需确保数据源的稳定性和可访问性,避免因外部依赖导致的数据不可用问题。这些挑战不仅体现在数据集的构建过程中,也直接影响其在教学和研究中的实际应用效果。
常用场景
经典使用场景
在机器学习领域,数据集是算法开发和模型验证的基石。Machine Learning Datasets 提供了从二元分类到多元时间序列分析的广泛数据集,这些数据集广泛应用于教学和研究中,帮助学者和开发者理解和掌握不同机器学习算法的性能和应用场景。
实际应用
在实际应用中,这些数据集被用于开发预测模型,如信用评分、疾病诊断、环境监测等。例如,使用 Breast Cancer (Wisconsin) 数据集可以帮助医疗专业人员预测乳腺癌的风险,而使用 Boston Housing 数据集则可以预测房价,为房地产市场提供决策支持。
衍生相关工作
基于这些数据集,许多经典的研究工作得以展开。例如,利用 Iris Flower Species 数据集进行的分类算法研究,已成为机器学习领域的经典案例。此外,这些数据集也促进了新算法的开发,如深度学习在时间序列分析中的应用,特别是在 Hourly Pollution Levels in Beijing 数据集上的应用,展示了算法在复杂环境数据中的潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作