five

知识库

收藏
arXiv2025-04-09 更新2025-04-10 收录
下载链接:
http://arxiv.org/abs/2504.06207v1
下载链接
链接失效反馈
官方服务:
资源简介:
该知识库由法国图卢兹第一大学和法国国家科学研究中心的研究人员创建,包含超过4百万的先前学习模型,旨在作为新方法和研究的参考基础。数据集内容涵盖多种机器学习算法的配置和性能数据,用于自动化算法选择和参数优化。构建过程涉及对先前作品的复习和元学习框架的建立。该数据集的应用领域主要是为了促进机器学习算法的民主化,使非专家用户能够轻松选择和调整机器学习算法,而无需深入了解算法的内部工作机制。

This knowledge base was developed by researchers from Toulouse 1 University Capitole in France and the French National Centre for Scientific Research (CNRS). It contains over 4 million pre-trained models, and is designed to serve as a reference foundation for novel methods and academic research. The dataset encompasses configuration and performance data of diverse machine learning algorithms, supporting automated algorithm selection and hyperparameter optimization. Its development process involves reviewing prior scholarly works and establishing a meta-learning framework. The core application scenario of this dataset is to promote the democratization of machine learning, enabling non-expert users to conveniently select and tune machine learning algorithms without in-depth knowledge of their internal operational mechanisms.
提供机构:
法国图卢兹第一大学,法国国家科学研究中心(CNRS)
创建时间:
2025-04-09
搜集汇总
数据集介绍
main_image_url
构建方式
该知识库数据集通过系统化的元学习方法构建,整合了400个来自Kaggle、KEEL、UCI和OpenML平台的多样化分类数据集,涵盖二元与多元分类任务。研究团队采用PyMFE工具提取了41个涵盖统计特性、信息熵、模型结构等维度的元特征,并通过10×5折分层交叉验证策略对8种主流分类算法(如SVM、随机森林等)进行超参数组合评估,最终形成包含400万条评估管线的知识库。数据构建过程强调实验稳定性,采用NoSQL数据库存储算法配置、性能指标及运行时资源消耗等异构元数据。
特点
该数据集的核心价值在于其系统性整合了算法性能与数据特征的关联规律:1) 覆盖71%二元与29%多元分类任务的领域平衡性;2) 通过几何均值、协方差等41个多维度元特征量化数据集复杂度;3) 包含支持向量机等8类算法在1000+超参数组合下的准确率、F1值等多元评估指标;4) 采用分层交叉验证确保性能评估的统计显著性。其创新性体现为首次将算法选择、超参数优化与元学习框架深度融合,为AutoML研究提供标准化基准。
使用方法
使用者可通过三阶段流程利用该资源:首先提取目标数据集的元特征向量,随后在知识库中基于欧氏距离检索最相似的K个历史任务(如Algorithm 6所示),最终根据邻近任务的算法性能排名推荐候选管道。对于高级应用,可加载预训练的随机森林或kNN元模型,输入新数据集特征直接预测最优算法配置。该框架支持AutoML工具对比研究,其4百万条实验记录也可用于元特征重要性分析或新型推荐算法验证,相关接口已在GitHub开源。
背景与挑战
背景概述
知识库数据集由Moncef Garouani等研究人员于2025年提出,旨在解决算法选择与参数优化(ASP)这一核心研究问题。该数据集构建了一个包含400万条历史学习经验的基准知识库,为元学习(Meta-Learning)在自动化机器学习(AutoML)领域的应用提供了重要支撑。研究团队通过整合400个来自Kaggle、KEEL、UCI和OpenML平台的多样化分类数据集,采用41种元特征对任务复杂性进行量化表征,并系统评估了8种主流分类算法在不同超参数配置下的性能表现。这项工作显著降低了机器学习应用的技术门槛,推动了机器学习民主化进程,对工业大数据分析领域产生了深远影响。
当前挑战
知识库数据集面临双重挑战:在领域问题层面,需解决算法选择与超参数优化的组合搜索空间爆炸问题,传统网格搜索和随机搜索方法在计算效率与效果上存在局限;在构建过程中,需克服元特征设计的表征瓶颈——现有统计类元特征难以捕捉数据分布的潜在模式,且不同特征家族间的信息冗余会降低元模型的预测效能。此外,数据集的异构性(71%二分类与29%多分类任务混合)和超参数配置的维度灾难(单数据集平均评估8000条流水线)对知识库的规模扩展与质量保证提出了严峻考验。
常用场景
实际应用
在工业实践中,该知识库被集成到AutoML系统中,用于智能制造、预测性维护等场景。例如在预测设备故障时,系统能根据传感器数据的统计特征(如偏度、协方差)自动选择随机森林或梯度提升树等算法,并配置最优超参数。相比人工调参,该方法将模型构建时间从数小时缩短至分钟级,同时保持90%以上的分类准确率,显著提升了工业数据分析效率。
衍生相关工作
该数据集催生了多项经典研究:1) Auto-Sklearn通过集成该知识库的元特征改进了贝叶斯优化效率;2) TPOT利用遗传算法结合知识库推荐优化机器学习流程;3) 后续工作《AMLBID》将其扩展为可解释AutoML框架,引入SHAP值分析元特征重要性。这些衍生研究共同推动了元学习在算法自动选择、超参数优化以及跨领域迁移学习方面的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作