five

PIPES

收藏
arXiv2025-09-11 更新2025-09-13 收录
下载链接:
https://github.com/cynthiamaia/PIPES
下载链接
链接失效反馈
官方服务:
资源简介:
PIPES是一个元数据集,旨在支持元学习研究,通过提供一系列涉及多个数据预处理和分类算法的机器学习实验。该数据集包含了在300个数据集上执行的9,408个管道的结果,并提供了关于管道块、训练和测试时间、预测结果、性能以及可能出现的错误信息。PIPES旨在克服OpenML中管道缺乏多样性和完整性的问题,为元学习社区提供了一个更全面和代表性的数据集。
提供机构:
巴西伯南布哥州联邦大学信息中心;巴西阿拉戈斯州联邦大学计算研究所;加拿大魁北克大学蒙特利尔分校高等技术学院
创建时间:
2025-09-11
原始信息汇总

PIPES 数据集概述

数据集基本信息

  • 数据集名称:PIPES
  • 论文标题:PIPES: A Meta-dataset of Machine Learning Pipelines
  • 论文状态:已提交至 IJCNN 2025

数据集内容

  • 数据类型:机器学习流水线元数据
  • 数据组织方式:按数据集 ID 和算法名称组织的 CSV 文件
  • 数据存储结构
    • 根目录为 datasets
    • 子目录以数据集 ID 命名(如 1/, 2/
    • 每个子目录包含算法特定的 CSV 文件(如 algorithm1_data.csv, algorithm2_data.csv

数据访问方式

  • 访问接口:基于 FastAPI 的 RESTful API
  • 主要功能
    • 根据数据集 ID 和算法名称检索数据
    • 自动处理缺失值和无限值
    • 返回清洁的 JSON 响应

API 端点

获取算法数据

  • URL/data/{dataset_id}/{algorithm_name}
  • 方法:GET
  • 路径参数
    • dataset_id:整数类型,数据集文件夹的 ID
    • algorithm_name:字符串类型,要搜索的算法名称

响应状态码

  • 200:成功,返回数据集
  • 404:数据集或文件未找到
  • 500:文件处理错误

技术需求

  • Python 3.8 或更高版本
  • FastAPI
  • Pandas
  • NumPy
  • Uvicorn(用于运行服务器)

相关链接

  • Swagger UI 本地访问:http://127.0.0.1:8000/docs
  • Swagger UI 在线访问:https://pipes-production.up.railway.app/docs
搜集汇总
数据集介绍
main_image_url
构建方式
在机器学习元学习研究领域,构建具有代表性的元数据集对算法选择问题至关重要。PIPES数据集的构建采用系统性组合方法,基于Scikit-learn框架选取了五大管道模块:缺失值填补、分类编码、数据缩放、特征预处理及分类算法。每个模块涵盖多种技术选项,通过笛卡尔积生成全部9,408种管道组合,并在300个经过严格筛选的OpenML数据集上执行完整实验。所有实验记录均包含详细的元特征、性能指标、时间消耗及错误日志,确保了数据集的全面性与可追溯性。
特点
PIPES数据集的核心优势在于其卓越的多样性与平衡性。与OpenML存在技术使用偏倚不同,该数据集均匀覆盖了所有预处理技术与分类器的组合,包括传统研究中常被忽视的数据缩放与特征工程步骤。数据集收录了145种元特征,涵盖统计特性、模型复杂度及信息论指标等多维度描述符。此外,实验结果不仅记录最优性能管道,更完整保存所有管道组合的输出,包括训练预测结果与运行时错误信息,为研究不同技术组合的交互效应提供了丰富素材。
使用方法
该数据集主要服务于元学习领域的算法推荐与管道优化研究。研究者可通过提供的API接口获取结构化元数据,构建基于数据集特征与管道性能的映射模型。典型应用包括:基于元特征推荐最优预处理管道、分析特定技术组合在不同数据分布下的表现规律,以及为自动化机器学习系统构建先验知识库。数据集支持性能指标对比、时间成本分析及错误模式挖掘,使用时需结合跨验证策略以确保推荐模型的泛化能力。
背景与挑战
背景概述
PIPES作为机器学习元学习领域的新型元数据集,由巴西伯南布哥联邦大学与加拿大魁北克大学联合团队于2025年提出,旨在解决算法选择问题中预处理步骤代表性不足的瓶颈。该数据集通过系统化整合9,408种管道组合在300个数据集上的完整实验记录,包括数据插补、编码、缩放、特征预处理和分类器等五大模块的详细性能指标,为元学习系统提供了前所未有的管道多样性支持。其构建基于对OpenML仓库局限性的深度分析,特别针对预处理技术覆盖不均的问题,通过均衡采样策略显著提升了元学习模型的泛化能力。
当前挑战
在领域问题层面,PIPES需应对算法选择中预处理技术与分类器组合的复杂交互关系挑战,包括高维元特征空间下的性能映射建模与跨数据集泛化能力优化。构建过程中面临多重技术难点:需平衡9,408种管道组合在300个数据集上的计算可行性,处理缺失值导致的管道执行错误日志记录,以及确保145种元特征提取的标准化与可复现性。此外,还需克服超参数固定化带来的表达局限性,并设计可扩展架构以支持未来模块扩充。
常用场景
经典使用场景
在元学习领域,PIPES数据集被广泛应用于算法选择问题的研究,特别是在构建和评估机器学习流水线推荐系统时。该数据集通过涵盖多种预处理技术和分类器的完整组合,为研究者提供了一个高度多样化的实验基础,使得能够系统性地分析不同流水线配置对模型性能的影响。
衍生相关工作
PIPES数据集衍生了一系列经典研究工作,主要集中在元学习框架下的流水线优化和算法推荐系统。例如,基于该数据集的元模型被开发用于推荐特征预处理和缩放技术,其他研究则利用其完整流水线记录探索多块组合效应,推动了自动化机器学习中搜索空间设计和性能预测方法的发展。
数据集最近研究
最新研究方向
在元学习领域,PIPES数据集正推动机器学习流水线推荐系统的前沿研究。该数据集通过系统化整合数据预处理与分类算法的全组合实验,有效解决了OpenML等现有平台中存在的流水线结构不平衡与技术覆盖局限问题。当前研究聚焦于基于元特征驱动的流水线自动选择框架,结合多模态元学习模型探索预处理步骤与分类器间的协同效应。热点方向包括跨域流水线迁移学习、计算效率与性能的权衡优化,以及超参数配置的自动化扩展。这一数据集为构建更鲁棒的元推荐系统提供了关键支撑,显著提升了复杂现实场景下机器学习工作流的可解释性与泛化能力。
相关研究论文
  • 1
    PIPES: A Meta-dataset of Machine Learning Pipelines巴西伯南布哥州联邦大学信息中心;巴西阿拉戈斯州联邦大学计算研究所;加拿大魁北克大学蒙特利尔分校高等技术学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作