PMLB v1.0

Name: PMLB v1.0
Creator: 宾夕法尼亚大学
Published: 2021-04-06 20:37:35
License: 暂无描述

arXiv2021-04-06 更新2024-06-21 收录

下载链接：

https://github.com/EpistasisLab/pmlb

下载链接

链接失效反馈

官方服务：

资源简介：

PMLB v1.0是由宾夕法尼亚大学开发的一个大型开源数据集集合，旨在为机器学习和数据科学方法的评估提供标准化比较。该数据集集合整合了来自UCI ML仓库和OpenML等多个来源的数百个公开可用数据集，支持回归和分类问题。数据集创建过程中，每个数据集都配有详细的元数据描述和自动生成的Pandas Profiling报告，以确保数据质量。PMLB的应用领域广泛，主要用于评估和比较新的机器学习算法，解决数据集访问困难、集成分析挑战和数据质量问题。

PMLB v1.0 is a large-scale open-source dataset collection developed by the University of Pennsylvania, designed to provide standardized comparative benchmarks for evaluating machine learning and data science methodologies. This collection integrates hundreds of publicly available datasets from multiple sources including the UCI Machine Learning Repository and OpenML, supporting both regression and classification tasks. During the dataset curation process, each dataset is accompanied by detailed metadata descriptions and automatically generated Pandas Profiling reports to ensure data quality. Widely applicable across diverse domains, PMLB is primarily employed to evaluate and compare emerging machine learning algorithms, while also addressing core challenges including limited dataset accessibility, barriers to integrated analysis, and data quality concerns.

提供机构：

宾夕法尼亚大学

创建时间：

2020-12-01

搜集汇总

数据集介绍

构建方式

在机器学习领域，标准化基准数据集对于算法评估至关重要。PMLB v1.0的构建过程体现了系统化整合与规范化管理的理念。该数据集集合从多个公开来源（如UCI机器学习库和OpenML）系统性地搜集了数百个数据集，并通过Git Large File Storage技术进行存储管理。每个数据集均配备了基于JSON-Schema标准化的元数据文件，详细记录数据来源、特征描述及编码规则。同时，项目采用自动化流程生成Pandas Profiling报告，对数据特征进行量化分析，确保数据质量的可追溯性与可验证性。

特点

PMLB v1.0作为机器学习基准测试的重要资源，其核心特点在于规模性与多样性。该集合涵盖298个数据集，同时支持分类与回归任务，数据观测数量跨越多个数量级，特征维度分布广泛。数据集均经过严格筛选与标注，配备结构化元数据体系，支持通过关键词、任务类型等维度进行智能检索。交互式可视化界面提供数据分布的可视化探索，而标准化接口设计则消除了数据格式异构性带来的技术障碍，为跨数据集比较研究提供了坚实基础。

使用方法

为促进机器学习方法的标准化评估，PMLB v1.0提供了多层次的使用途径。研究者可通过Python或R语言接口直接安装调用，利用内置函数实现数据集的快速加载与预处理。交互式网站支持基于特征数量、样本规模等统计指标的数据集筛选与排序，点击数据集名称即可访问详细的量化分析报告。对于算法开发场景，用户可依据元数据中的任务类型、特征结构等信息构建定制化测试流程，而自动化生成的缺失值检测与相关性分析报告则为数据质量评估提供了即时参考依据。

背景与挑战

背景概述

在机器学习领域，标准化基准数据集对于评估算法性能至关重要，然而长期以来，研究人员面临数据集分散、访问不便以及质量参差不齐的困境。PMLB v1.0（Penn Machine Learning Benchmarks）由宾夕法尼亚大学等机构的科研团队于2020年发布，旨在构建一个统一、高质量的开放基准数据集集合。该数据集整合了来自UCI、OpenML等多个来源的数百个数据集，涵盖分类与回归任务，通过标准化元数据与自动化分析报告，为机器学习方法提供系统化评估平台，显著提升了算法比较的可靠性与效率，推动了数据科学研究的可复现性。

当前挑战

PMLB v1.0致力于解决机器学习基准测试中数据集碎片化与质量控制的挑战，其核心在于如何从异构来源中筛选、清洗并标准化数据，确保评估的公平性与一致性。构建过程中，团队需克服数据格式不统一、元数据缺失以及特征编码差异等难题，同时需设计用户友好的接口以支持多语言环境。此外，随着数据集规模扩大，维护数据更新、验证贡献内容的质量，并保持与快速演进的机器学习生态同步，构成了持续性的管理挑战。

常用场景

经典使用场景

在机器学习领域，基准测试是评估算法性能的核心环节。PMLB v1.0作为大规模、多样化的开源基准数据集集合，为研究人员提供了一个标准化的平台，用于系统性地比较不同机器学习模型在分类与回归任务上的表现。通过集成来自UCI、OpenML等权威来源的数百个数据集，并配备统一的元数据与统计报告，该数据集极大地简化了模型评估流程，使得研究者能够快速验证新方法的泛化能力与鲁棒性。

实际应用

在实际应用中，PMLB v1.0为数据科学家与工程师提供了便捷的工具，以加速机器学习管道的开发与优化。其友好的Python与R接口允许用户轻松筛选、下载特定类型的数据集，例如针对高维特征或类别不平衡问题的数据。这不仅缩短了项目前期数据准备的时间，还促进了工业界与学术界在模型部署前的快速原型验证，尤其在医疗、金融等需要稳健预测模型的领域展现了重要价值。

衍生相关工作

围绕PMLB v1.0，已衍生出多项经典研究工作，进一步拓展了其影响力。例如，基于该数据集的基准测试被广泛用于自动化机器学习框架的评估，如TPOT与Auto-sklearn等工具的性能验证。同时，许多研究利用PMLB的多样化数据探究了算法在异构任务上的可扩展性，促进了迁移学习与元学习领域的发展。这些工作共同巩固了PMLB作为机器学习基准测试黄金标准的地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集