Machine Learning Datasets
收藏github2021-03-17 更新2024-05-31 收录
下载链接:
https://github.com/sudimuk2017/Machine-Learning-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含机器学习教程中使用的数据集副本,确保这些数据集在教程中持续可用,不依赖于不可靠的第三方。数据集涵盖二分类、多分类、回归和时间序列等多种类型,每个数据集都有详细的文件名和简要描述。
This repository contains replicas of datasets used in machine learning tutorials, ensuring their continuous availability without reliance on unreliable third parties. The datasets encompass various types including binary classification, multi-class classification, regression, and time series. Each dataset is accompanied by a detailed file name and a brief description.
创建时间:
2020-07-13
原始信息汇总
数据集概述
分类数据集
二分类数据集
- Breast Cancer (Wisconsin) (breast-cancer-wisconsin.csv)
- Breast Cancer (Yugoslavia) (breast-cancer.csv)
- Breast Cancer (Habermans) (haberman.csv)
- Bank Note Authentication (banknote_authentication.csv)
- Horse Colic (horse-colic.csv)
- Ionosphere (ionosphere.csv)
- Pima Indians Diabetes (pima-indians-diabetes.csv)
- Sonar Returns (sonar.csv)
- German Credit (german.csv)
- Credit Card Fraud (creditcard.csv.zip)
- Adult Income (adult-all.csv)
- Mammography (mammography.csv)
- Oil Spill (oil-spill.csv)
- Phoneme (phoneme.csv)
多分类数据集
- Glass Identification (glass.csv)
- Iris Flower Species (iris.csv)
- Wheat Seeds (wheat-seeds.csv)
- Wine (wine.csv)
- Ecoli (ecoli.csv)
- Thyroid Gland (new-thyroid.csv)
回归数据集
- Boston Housing (housing.csv)
- Auto Insurance Total Claims (auto-insurance.csv)
- Auto Imports Prices (auto_imports.csv)
- Abalone Age (abalone.csv)
- Wine Quality Red (winequality-red.csv)
- Wine Quality White (winequality-white.csv)
时间序列数据集
单变量时间序列数据集
- Daily Minimum Temperatures in Melbourne (daily-min-temperatures.csv)
- Daily Maximum Temperatures in Melbourne (daily-max-temperatures.csv)
- Daily Female Births in California (daily-total-female-births.csv)
- Monthly International Airline Passengers (monthly-airline-passengers.csv)
- Monthly Armed Robberies in Boston (monthly-robberies.csv)
- Monthly Sunspots (monthly-sunspots.csv)
- Monthly Champagne Sales (monthly_champagne_sales.csv)
- Monthly Shampoo Sales (monthly-shampoo-sales.csv)
- Monthly Car Sales (monthly-car-sales.csv)
- Monthly Mean Temperatures in Nottingham Castle (monthly-mean-temp.csv)
- Monthly Specialty Writing Paper Sales (monthly-writing-paper-sales.csv)
- Yearly Water Usage in Baltimore (yearly-water-usage.csv)
多变量时间序列数据集
- Hourly Pollution Levels in Beijing
- Minutely Individual Household Electric Power Consumption
- Human Activity Recognition Using Smartphones
- Indoor Movement Prediction
- Yearly Longley Economic Employment
搜集汇总
数据集介绍

构建方式
该数据集的构建源于确保机器学习教程中使用的数据集能够长期可用,避免依赖不可靠的第三方资源。所有数据集均以CSV格式存储,文件结构统一,目标变量位于最后一列,缺失值以问号标记。数据集的命名和格式经过精心设计,以确保与教程的直接链接兼容,避免因文件名更改导致的资源失效问题。
特点
该数据集涵盖了广泛的机器学习任务,包括二分类、多分类、回归以及单变量和多变量时间序列分析。每个数据集均经过标准化处理,确保数据格式一致,便于直接应用于模型训练和评估。数据集来源多样,涵盖了医疗、金融、环境等多个领域,具有较高的实用性和代表性。
使用方法
用户可通过GitHub仓库直接访问数据集,或通过教程中的链接获取原始数据。数据集可直接加载至机器学习框架中,无需额外预处理。建议用户在使用时保持文件名不变,以确保与教程的兼容性。此外,数据集适用于多种机器学习任务,用户可根据需求选择合适的子集进行实验和研究。
背景与挑战
背景概述
Machine Learning Datasets 数据集由 MachineLearningMastery.com 创建,旨在为机器学习教程提供可靠的数据支持。该数据集涵盖了多种机器学习任务,包括二分类、多分类、回归以及时间序列分析等。数据集的设计初衷是为了确保教程中使用的数据能够长期稳定获取,避免依赖不可靠的第三方数据源。数据集中的文件格式统一,目标变量位于最后一列,缺失值以问号标记,便于机器学习算法的直接应用。该数据集在机器学习教育和研究中具有广泛的影响力,为初学者和研究人员提供了丰富的实验数据。
当前挑战
Machine Learning Datasets 数据集在构建和应用过程中面临多重挑战。首先,数据集的多样性和复杂性要求算法具备较强的泛化能力,尤其是在处理高维数据或时间序列数据时,模型的性能往往受到限制。其次,数据集中的缺失值和噪声数据增加了数据预处理的难度,需要开发有效的清洗和插值方法。此外,数据集的更新和维护也是一个重要挑战,确保数据的时效性和准确性需要持续投入资源。最后,数据集的广泛应用也带来了隐私和伦理问题,特别是在涉及个人或敏感数据时,如何平衡数据开放与隐私保护成为亟待解决的问题。
常用场景
经典使用场景
在机器学习领域,该数据集广泛应用于教学和研究中,特别是在分类和回归问题的模型训练与验证中。例如,Iris Flower Species数据集常被用于演示多类分类算法,而Boston Housing数据集则常用于回归模型的基准测试。这些数据集因其简洁和标准化格式,成为初学者和研究者快速上手和验证算法的理想选择。
实际应用
在实际应用中,这些数据集被广泛用于金融、医疗、环境监测等领域。例如,Credit Card Fraud数据集用于开发欺诈检测系统,而Hourly Pollution Levels in Beijing数据集则用于空气质量预测模型的训练。这些应用不仅提升了相关领域的技术水平,也为社会带来了显著的经济和环境效益。
衍生相关工作
该数据集衍生了许多经典的研究工作。例如,基于Iris Flower Species数据集的研究推动了多类分类算法的发展,而基于Boston Housing数据集的研究则促进了回归模型的优化。这些工作不仅丰富了机器学习的理论体系,也为实际应用提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成



