PMLBmini
收藏arXiv2024-09-03 更新2024-09-06 收录
下载链接:
https://github.com/RicardoKnauer/TabMini
下载链接
链接失效反馈官方服务:
资源简介:
PMLBmini是由柏林应用科学大学KI-Werkstatt创建的一个专门针对数据稀缺应用的表格分类基准套件。该数据集包含44个二分类数据集,每个数据集的样本大小不超过500,旨在评估在低数据环境下的机器学习方法。数据集的内容涵盖了从OpenML中筛选出的样本大小不超过500的二分类数据集,经过随机打乱和标签编码处理。创建过程中,数据集被设计为易于扩展和使用,提供了Python接口和Docker容器支持。PMLBmini主要应用于数据稀缺场景下的机器学习方法评估,旨在解决在低数据环境下复杂算法容易过拟合的问题。
提供机构:
柏林应用科学大学KI-Werkstatt
创建时间:
2024-09-03
搜集汇总
数据集介绍

构建方式
PMLBmini数据集旨在解决实际应用中常见的小规模表格数据问题。它由44个二元分类数据集组成,每个数据集的样本量不超过500。这些数据集是从PMLB(Penn Machine Learning Benchmarks)中挑选出来的,PMLB是一个包含大量表格数据集的基准套件。PMLBmini的构建考虑到了数据稀缺应用的特殊需求,使得研究人员和从业者能够在低数据环境下评估和比较各种机器学习方法的性能。
特点
PMLBmini数据集的特点在于它专门针对低数据环境下的机器学习问题。数据集的样本量较小,这使得它们更适合用于评估在数据稀缺情况下的机器学习算法。此外,数据集的复杂性各不相同,既有简单的数据集,也有较为复杂的数据集,这有助于研究人员了解不同算法在不同难度级别上的表现。PMLBmini还提供了一个用户友好的Python接口,方便研究人员和从业者进行实证比较和元特征分析。
使用方法
PMLBmini数据集的使用方法主要涉及实证比较和元特征分析。实证比较可以通过Python接口中的compare函数进行,该函数允许用户将自定义的表格分类器与基线方法进行比较。此外,用户还可以使用get_meta_feature_analysis函数进行元特征分析,以了解哪些数据集属性使得某些方法比其他方法更有效。PMLBmini的Python接口提供了一个易于使用的环境,使得研究人员和从业者能够轻松地评估和比较他们的机器学习算法。
背景与挑战
背景概述
在机器学习领域,数据集的质量和数量对模型的性能有着至关重要的影响。对于许多实际应用,尤其是那些涉及少量样本的情况,如何有效地利用有限的数据成为一个关键挑战。PMLBmini数据集正是为了应对这一挑战而创建的。该数据集由德国柏林应用科学大学KI-Werkstatt的研究团队开发,旨在为数据稀缺的应用提供一套表格分类基准。PMLBmini包含了44个二元分类数据集,每个数据集的样本量均不超过500,这使得研究人员和从业者能够在数据稀缺的情况下,对当前的自动化机器学习(AutoML)框架、即用的表格深度神经网络以及经典线性模型进行彻底评估。该数据集的创建对于推动机器学习在数据稀缺环境下的研究具有重要意义,并有助于提高模型在小数据集上的数据效率和性能。
当前挑战
PMLBmini数据集面临的挑战主要在于如何有效地评估机器学习模型在数据稀缺环境下的性能。由于样本量较小,过拟合成为应用复杂算法时的一大问题。此外,交叉验证的折叠可能过小,无法充分代表原始样本和目标人群。这导致难以找到良好的超参数设置,数据驱动的超参数优化可能无法提高,甚至可能降低低数据量情况下单个数据集的预测性能。为了解决这些问题,PMLBmini数据集提供了一个标准化的、多样化的数据集集合,使得研究人员和从业者能够在该数据集上进行系统性的评估,从而更好地理解不同机器学习模型在数据稀缺情况下的性能表现。此外,PMLBmini数据集还提供了元特征分析工具,帮助研究人员和从业者探究在何种数据集属性下,某些方法比其他方法更有效。
常用场景
经典使用场景
PMLBmini 数据集被广泛用于评估在数据稀缺环境下机器学习方法的性能。它包含了 44 个二分类数据集,每个数据集的样本量都小于等于 500。这些数据集涵盖了不同的数据特征和样本大小,使得研究者能够评估各种机器学习方法的性能,包括自动化机器学习框架、预训练的深度神经网络和传统的线性模型。PMLBmini 数据集提供了一个标准化的环境,使得研究者能够在相似的数据集上比较不同的机器学习方法的性能,从而促进了对数据稀缺环境下机器学习方法的深入理解和改进。
实际应用
PMLBmini 数据集在实际应用中具有重要的意义。它可以帮助研究者选择和评估适合数据稀缺环境下的机器学习方法,从而提高机器学习模型的准确性和可靠性。此外,PMLBmini 数据集还可以用于开发和改进机器学习方法,使得这些方法能够在数据稀缺的环境下更好地工作。例如,研究者可以使用 PMLBmini 数据集来评估不同深度学习模型的性能,从而选择最适合数据稀缺环境下的深度学习模型。PMLBmini 数据集还可以用于开发新的机器学习方法,例如自动化机器学习框架,以适应数据稀缺的环境。通过在 PMLBmini 数据集上测试和评估这些方法,研究者可以更好地理解这些方法的优势和局限性,从而改进它们并提高它们的性能。
衍生相关工作
PMLBmini 数据集衍生了许多相关的工作。这些工作主要集中在如何提高机器学习方法在数据稀缺环境下的性能。例如,一些研究者使用 PMLBmini 数据集来评估和比较不同的深度学习模型,以找到最适合数据稀缺环境下的深度学习模型。此外,一些研究者还使用 PMLBmini 数据集来开发和改进自动化机器学习框架,以适应数据稀缺的环境。这些工作有助于推动机器学习方法在数据稀缺环境下的应用和发展。PMLBmini 数据集还促进了机器学习方法在数据稀缺环境下的理论研究和实验研究。例如,一些研究者使用 PMLBmini 数据集来研究机器学习方法在不同数据集上的性能,以找到影响机器学习方法性能的关键因素。这些研究有助于我们更好地理解机器学习方法在数据稀缺环境下的行为,从而改进它们并提高它们的性能。
以上内容由遇见数据集搜集并总结生成



