Airline dataset, Higgs dataset, Cover type dataset, Synthetic classification, Synthetic regression, YearPredictionMSD

github2021-10-18 更新2024-05-31 收录

下载链接：

https://github.com/RAMitchell/ml_dataset_loader

下载链接

链接失效反馈

官方服务：

资源简介：

提供了用于加载机器学习数据集的简化Python函数。这些函数通常返回预处理过的数据集，格式为X,y，符合sklearn标准。数据集包括航空数据集、希格斯数据集、覆盖类型数据集、合成分类、合成回归和年份预测数据集等。每个数据集都有详细的描述，包括数据来源、特殊要求、维度、任务类型等。

Provides simplified Python functions for loading machine learning datasets. These functions typically return preprocessed datasets in the format of X, y, conforming to the sklearn standard. The datasets include the Airline dataset, Higgs dataset, Covertype dataset, synthetic classification, synthetic regression, and year prediction dataset, among others. Each dataset comes with a detailed description, including data sources, special requirements, dimensions, and task types.

创建时间：

2018-05-28

原始信息汇总

数据集概述

1. 航空数据集

来源: http://kt.ijs.si/elena_ikonomovska/data.html
预处理: 分类列转换为序数，目标变量“到达延迟”转换为二元目标。
维度: 115M行, 13列。
任务: 二元分类

2. 希格斯粒子数据集

来源: https://archive.ics.uci.edu/ml/datasets/HIGGS
维度: 11M行, 28列。
任务: 二元分类

3. 覆盖类型数据集

来源: https://archive.ics.uci.edu/ml/datasets/covertype
维度: 581012行, 54列。
任务: 多类分类

4. 合成分类数据集

来源: http://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html
维度: 10000000行, 100列。
任务: 二元分类

5. 合成回归数据集

来源: http://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html
维度: 10000000行, 100列。
任务: 回归

6. 年份预测数据集

来源: https://archive.ics.uci.edu/ml/datasets/yearpredictionmsd
维度: 515345行, 90列。
任务: 回归

7. URL信誉数据集

来源: https://archive.ics.uci.edu/ml/datasets/URL+Reputation
维度: 2396130行, 3231961列。
任务: 分类

8. 博世生产线性能数据集

来源: https://www.kaggle.com/c/bosch-production-line-performance
要求: 需要Kaggle API和API令牌
维度: 1.184M行, 968列。
任务: 二元分类

9. 成人数据集

来源: https://archive.ics.uci.edu/ml/datasets/Adult
预处理: 测试集附加到训练集后，分类变量进行独热编码。
维度: 48842行, 107列。
任务: 分类

10. 葡萄酒质量数据集

来源: https://archive.ics.uci.edu/ml/datasets/Wine+Quality
维度: 4898行, 12列。
任务: 回归

11. OHSUMED排名数据集

来源: https://www.microsoft.com/en-us/research/project/letor-learning-rank-information-retrieval/
维度: 16140行, 45列。
任务: 排名

12. Epsilon数据集

来源: https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
维度: 500K行, 2K列。
任务: 分类

以上数据集均提供num_rows参数，支持快速原型实验，且函数调用被缓存，确保数据仅被获取一次。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要依赖于从多个公开的机器学习数据源中提取和预处理数据。每个数据集通过特定的Python函数进行加载，这些函数通常返回符合sklearn标准格式的X和y数据。为了优化性能，函数调用被缓存，确保数据集仅需获取一次。此外，每个函数都提供了num_rows参数，允许用户快速原型化实验，使用少量训练实例进行初步测试。

特点

该数据集的特点在于其多样性和广泛的应用场景。涵盖了从航空延误预测、高能物理实验数据到森林覆盖类型分类等多种任务。每个数据集都具有明确的维度和任务类型，如二分类、多分类或回归任务。数据集中的特征经过预处理，如类别特征的编码、目标变量的转换等，确保数据可直接用于机器学习模型的训练和评估。

使用方法

该数据集的使用方法简便高效。用户只需调用相应的Python函数即可加载所需的数据集，函数会自动处理数据的获取和预处理。通过num_rows参数，用户可以灵活控制加载的数据量，便于快速实验和调试。此外，数据集加载函数支持缓存机制，避免重复下载和处理，提升使用效率。用户还可以根据需求扩展数据集，通过添加新的函数和单元测试来集成自定义数据集。

背景与挑战

背景概述

ml_dataset_loader 是一个专门为机器学习实验设计的Python模块，旨在简化数据集的加载过程。该模块由RAMitchell开发，提供了多个常用数据集的预处理版本，并以sklearn标准形式返回数据。数据集涵盖航空、物理、生态、音乐等多个领域，广泛应用于分类、回归和排序等任务。其设计初衷是为了加速机器学习实验的原型开发，通过缓存机制和可选的样本数量参数，使得研究人员能够快速进行小规模实验。该模块的灵活性和易用性使其成为机器学习社区中的重要工具。

当前挑战

ml_dataset_loader 在解决领域问题和构建过程中面临多重挑战。首先，数据集的高维性和大规模性对计算资源和存储提出了较高要求，尤其是在处理如Higgs数据集（1100万行）和URL Reputation数据集（超过300万列）时。其次，数据预处理和标准化过程中需要处理缺失值、类别编码和稀疏矩阵等问题，这对算法的鲁棒性和效率提出了挑战。此外，模块的缓存机制虽然提升了加载效率，但也可能因缓存失效或数据源更新而导致实验结果的不可复现性。最后，部分数据集（如Bosch数据集）依赖于外部API（如Kaggle API），增加了使用门槛和复杂性。

常用场景

经典使用场景

在机器学习领域，Airline数据集常用于研究航班延误预测问题。该数据集包含了大量航班记录，涵盖了多个维度的特征，如航班时间、天气条件等。研究者通常利用这些数据构建分类模型，预测航班是否会延误，从而为航空公司和旅客提供决策支持。

衍生相关工作

基于Airline数据集，许多经典的研究工作得以展开。例如，研究者提出了多种基于集成学习的分类算法，以应对数据不平衡问题；同时，也有研究专注于特征工程，通过提取更有意义的特征来提高模型性能。这些工作不仅丰富了机器学习领域的理论体系，也为其他类似问题的解决提供了参考。

数据集最近研究