PIPES

Name: PIPES
Creator: 巴西伯南布哥州联邦大学信息中心;巴西阿拉戈斯州联邦大学计算研究所;加拿大魁北克大学蒙特利尔分校高等技术学院
Published: 2025-09-11 22:52:58
License: 暂无描述

arXiv2025-09-11 更新2025-09-13 收录

下载链接：

https://github.com/cynthiamaia/PIPES

下载链接

链接失效反馈

官方服务：

资源简介：

PIPES是一个元数据集，旨在支持元学习研究，通过提供一系列涉及多个数据预处理和分类算法的机器学习实验。该数据集包含了在300个数据集上执行的9,408个管道的结果，并提供了关于管道块、训练和测试时间、预测结果、性能以及可能出现的错误信息。PIPES旨在克服OpenML中管道缺乏多样性和完整性的问题，为元学习社区提供了一个更全面和代表性的数据集。

提供机构：

巴西伯南布哥州联邦大学信息中心;巴西阿拉戈斯州联邦大学计算研究所;加拿大魁北克大学蒙特利尔分校高等技术学院

创建时间：

2025-09-11

原始信息汇总

PIPES 数据集概述

数据集基本信息

数据集名称：PIPES
论文标题：PIPES: A Meta-dataset of Machine Learning Pipelines
论文状态：已提交至 IJCNN 2025

数据集内容

数据类型：机器学习流水线元数据
数据组织方式：按数据集 ID 和算法名称组织的 CSV 文件
数据存储结构：
- 根目录为 datasets
- 子目录以数据集 ID 命名（如 1/, 2/）
- 每个子目录包含算法特定的 CSV 文件（如 algorithm1_data.csv, algorithm2_data.csv）

数据访问方式

访问接口：基于 FastAPI 的 RESTful API
主要功能：
- 根据数据集 ID 和算法名称检索数据
- 自动处理缺失值和无限值
- 返回清洁的 JSON 响应

API 端点

获取算法数据

URL：/data/{dataset_id}/{algorithm_name}
方法：GET
路径参数：
- dataset_id：整数类型，数据集文件夹的 ID
- algorithm_name：字符串类型，要搜索的算法名称

响应状态码

200：成功，返回数据集
404：数据集或文件未找到
500：文件处理错误

技术需求

Python 3.8 或更高版本
FastAPI
Pandas
NumPy
Uvicorn（用于运行服务器）

相关链接

Swagger UI 本地访问：http://127.0.0.1:8000/docs
Swagger UI 在线访问：https://pipes-production.up.railway.app/docs

搜集汇总

数据集介绍

构建方式

在机器学习元学习研究领域，构建具有代表性的元数据集对算法选择问题至关重要。PIPES数据集的构建采用系统性组合方法，基于Scikit-learn框架选取了五大管道模块：缺失值填补、分类编码、数据缩放、特征预处理及分类算法。每个模块涵盖多种技术选项，通过笛卡尔积生成全部9,408种管道组合，并在300个经过严格筛选的OpenML数据集上执行完整实验。所有实验记录均包含详细的元特征、性能指标、时间消耗及错误日志，确保了数据集的全面性与可追溯性。

特点

PIPES数据集的核心优势在于其卓越的多样性与平衡性。与OpenML存在技术使用偏倚不同，该数据集均匀覆盖了所有预处理技术与分类器的组合，包括传统研究中常被忽视的数据缩放与特征工程步骤。数据集收录了145种元特征，涵盖统计特性、模型复杂度及信息论指标等多维度描述符。此外，实验结果不仅记录最优性能管道，更完整保存所有管道组合的输出，包括训练预测结果与运行时错误信息，为研究不同技术组合的交互效应提供了丰富素材。

使用方法

该数据集主要服务于元学习领域的算法推荐与管道优化研究。研究者可通过提供的API接口获取结构化元数据，构建基于数据集特征与管道性能的映射模型。典型应用包括：基于元特征推荐最优预处理管道、分析特定技术组合在不同数据分布下的表现规律，以及为自动化机器学习系统构建先验知识库。数据集支持性能指标对比、时间成本分析及错误模式挖掘，使用时需结合跨验证策略以确保推荐模型的泛化能力。

背景与挑战

背景概述

PIPES作为机器学习元学习领域的新型元数据集，由巴西伯南布哥联邦大学与加拿大魁北克大学联合团队于2025年提出，旨在解决算法选择问题中预处理步骤代表性不足的瓶颈。该数据集通过系统化整合9,408种管道组合在300个数据集上的完整实验记录，包括数据插补、编码、缩放、特征预处理和分类器等五大模块的详细性能指标，为元学习系统提供了前所未有的管道多样性支持。其构建基于对OpenML仓库局限性的深度分析，特别针对预处理技术覆盖不均的问题，通过均衡采样策略显著提升了元学习模型的泛化能力。

当前挑战

在领域问题层面，PIPES需应对算法选择中预处理技术与分类器组合的复杂交互关系挑战，包括高维元特征空间下的性能映射建模与跨数据集泛化能力优化。构建过程中面临多重技术难点：需平衡9,408种管道组合在300个数据集上的计算可行性，处理缺失值导致的管道执行错误日志记录，以及确保145种元特征提取的标准化与可复现性。此外，还需克服超参数固定化带来的表达局限性，并设计可扩展架构以支持未来模块扩充。

常用场景

经典使用场景

在元学习领域，PIPES数据集被广泛应用于算法选择问题的研究，特别是在构建和评估机器学习流水线推荐系统时。该数据集通过涵盖多种预处理技术和分类器的完整组合，为研究者提供了一个高度多样化的实验基础，使得能够系统性地分析不同流水线配置对模型性能的影响。

衍生相关工作

PIPES数据集衍生了一系列经典研究工作，主要集中在元学习框架下的流水线优化和算法推荐系统。例如，基于该数据集的元模型被开发用于推荐特征预处理和缩放技术，其他研究则利用其完整流水线记录探索多块组合效应，推动了自动化机器学习中搜索空间设计和性能预测方法的发展。

数据集最近研究