PIPES

Name: PIPES
Creator: 巴西伯南布哥州联邦大学信息中心;巴西阿拉戈斯州联邦大学计算研究所;加拿大魁北克大学蒙特利尔分校高等技术学院
Published: 2025-09-11 22:52:58
License: 暂无描述

arXiv2025-09-11 更新2025-09-13 收录

下载链接：

https://github.com/cynthiamaia/PIPES

下载链接

链接失效反馈

官方服务：

资源简介：

PIPES是一个元数据集，旨在支持元学习研究，通过提供一系列涉及多个数据预处理和分类算法的机器学习实验。该数据集包含了在300个数据集上执行的9,408个管道的结果，并提供了关于管道块、训练和测试时间、预测结果、性能以及可能出现的错误信息。PIPES旨在克服OpenML中管道缺乏多样性和完整性的问题，为元学习社区提供了一个更全面和代表性的数据集。

PIPES is a meta-dataset designed to support meta-learning research by providing a series of machine learning experiments involving multiple data preprocessing and classification algorithms. This dataset contains the results of 9,408 pipelines executed across 300 datasets, and provides information about pipeline blocks, training and testing time, prediction results, performance metrics, and potential error messages. PIPES aims to address the shortcomings of insufficient diversity and completeness of pipelines in OpenML, providing a more comprehensive and representative dataset for the meta-learning community.

提供机构：

巴西伯南布哥州联邦大学信息中心;巴西阿拉戈斯州联邦大学计算研究所;加拿大魁北克大学蒙特利尔分校高等技术学院

创建时间：

2025-09-11

原始信息汇总

PIPES 数据集概述

数据集基本信息

数据集名称：PIPES
论文标题：PIPES: A Meta-dataset of Machine Learning Pipelines
论文状态：已提交至 IJCNN 2025

数据集内容

数据类型：机器学习流水线元数据
数据组织方式：按数据集 ID 和算法名称组织的 CSV 文件
数据存储结构：
- 根目录为 datasets
- 子目录以数据集 ID 命名（如 1/, 2/）
- 每个子目录包含算法特定的 CSV 文件（如 algorithm1_data.csv, algorithm2_data.csv）

数据访问方式

访问接口：基于 FastAPI 的 RESTful API
主要功能：
- 根据数据集 ID 和算法名称检索数据
- 自动处理缺失值和无限值
- 返回清洁的 JSON 响应

API 端点

获取算法数据

URL：/data/{dataset_id}/{algorithm_name}
方法：GET
路径参数：
- dataset_id：整数类型，数据集文件夹的 ID
- algorithm_name：字符串类型，要搜索的算法名称

响应状态码

200：成功，返回数据集
404：数据集或文件未找到
500：文件处理错误

技术需求

Python 3.8 或更高版本
FastAPI
Pandas
NumPy
Uvicorn（用于运行服务器）

相关链接

Swagger UI 本地访问：http://127.0.0.1:8000/docs
Swagger UI 在线访问：https://pipes-production.up.railway.app/docs

搜集汇总

数据集介绍

构建方式

在机器学习元学习研究领域，构建具有代表性的元数据集对算法选择问题至关重要。PIPES数据集的构建采用系统性组合方法，基于Scikit-learn框架选取了五大管道模块：缺失值填补、分类编码、数据缩放、特征预处理及分类算法。每个模块涵盖多种技术选项，通过笛卡尔积生成全部9,408种管道组合，并在300个经过严格筛选的OpenML数据集上执行完整实验。所有实验记录均包含详细的元特征、性能指标、时间消耗及错误日志，确保了数据集的全面性与可追溯性。

特点

PIPES数据集的核心优势在于其卓越的多样性与平衡性。与OpenML存在技术使用偏倚不同，该数据集均匀覆盖了所有预处理技术与分类器的组合，包括传统研究中常被忽视的数据缩放与特征工程步骤。数据集收录了145种元特征，涵盖统计特性、模型复杂度及信息论指标等多维度描述符。此外，实验结果不仅记录最优性能管道，更完整保存所有管道组合的输出，包括训练预测结果与运行时错误信息，为研究不同技术组合的交互效应提供了丰富素材。

使用方法

该数据集主要服务于元学习领域的算法推荐与管道优化研究。研究者可通过提供的API接口获取结构化元数据，构建基于数据集特征与管道性能的映射模型。典型应用包括：基于元特征推荐最优预处理管道、分析特定技术组合在不同数据分布下的表现规律，以及为自动化机器学习系统构建先验知识库。数据集支持性能指标对比、时间成本分析及错误模式挖掘，使用时需结合跨验证策略以确保推荐模型的泛化能力。

背景与挑战

背景概述

PIPES作为机器学习元学习领域的新型元数据集，由巴西伯南布哥联邦大学与加拿大魁北克大学联合团队于2025年提出，旨在解决算法选择问题中预处理步骤代表性不足的瓶颈。该数据集通过系统化整合9,408种管道组合在300个数据集上的完整实验记录，包括数据插补、编码、缩放、特征预处理和分类器等五大模块的详细性能指标，为元学习系统提供了前所未有的管道多样性支持。其构建基于对OpenML仓库局限性的深度分析，特别针对预处理技术覆盖不均的问题，通过均衡采样策略显著提升了元学习模型的泛化能力。

当前挑战

在领域问题层面，PIPES需应对算法选择中预处理技术与分类器组合的复杂交互关系挑战，包括高维元特征空间下的性能映射建模与跨数据集泛化能力优化。构建过程中面临多重技术难点：需平衡9,408种管道组合在300个数据集上的计算可行性，处理缺失值导致的管道执行错误日志记录，以及确保145种元特征提取的标准化与可复现性。此外，还需克服超参数固定化带来的表达局限性，并设计可扩展架构以支持未来模块扩充。

常用场景

经典使用场景

在元学习领域，PIPES数据集被广泛应用于算法选择问题的研究，特别是在构建和评估机器学习流水线推荐系统时。该数据集通过涵盖多种预处理技术和分类器的完整组合，为研究者提供了一个高度多样化的实验基础，使得能够系统性地分析不同流水线配置对模型性能的影响。

衍生相关工作

PIPES数据集衍生了一系列经典研究工作，主要集中在元学习框架下的流水线优化和算法推荐系统。例如，基于该数据集的元模型被开发用于推荐特征预处理和缩放技术，其他研究则利用其完整流水线记录探索多块组合效应，推动了自动化机器学习中搜索空间设计和性能预测方法的发展。

数据集最近研究