MissBench
收藏arXiv2025-10-03 更新2025-10-07 收录
下载链接:
https://github.com/PriorLabs/tabpfn-extensions/blob/main/src/tabpfn_extensions/unsupervised/unsupervised.py
下载链接
链接失效反馈官方服务:
资源简介:
MissBench是一个基于OpenML数据集构建的综合测试平台,包含42个真实世界的OpenML数据集和13种缺失模式。它旨在评估缺失数据插补方法的性能,涵盖了医疗、金融、工程等领域的应用。数据集的生成使用了线性因子模型,并引入了多种缺失模式,以模拟真实世界的缺失数据情况。数据集的创建过程采用了TabPFN架构和新的特征矩阵构造方法,实现了并行GPU计算和快速准确的插补。该数据集可用于评估和比较缺失数据插补方法的性能,以解决数据缺失问题。
提供机构:
哥伦比亚大学,康奈尔大学
创建时间:
2025-10-03
搜集汇总
数据集介绍

构建方式
MissBench作为表格数据缺失值填补领域的综合性基准测试平台,其构建过程体现了严谨的系统工程思维。该数据集通过整合42个来自OpenML的真实世界表格数据集,覆盖医学、金融、工程等多个专业领域,确保了数据来源的多样性和代表性。在缺失模式设计方面,研究团队精心构建了13种合成缺失模式,包括1种完全随机缺失、1种随机缺失和11种非随机缺失模式,这些模式通过线性因子模型生成基础数据矩阵后,应用不同的缺失机制函数来模拟现实世界中复杂的缺失数据场景。
特点
MissBench的显著特征在于其全面性和实用性。该基准测试集不仅包含传统的完全随机缺失和随机缺失模式,更创新性地引入了多种非随机缺失场景,如面板数据缺失、审查缺失、极化缺失等复杂模式,这些模式能够准确反映现实应用中数据缺失的内在机制。数据集规模从50×5到170×不等,确保了在不同数据维度下的评估有效性。特别值得关注的是,所有数据集均经过严格筛选,仅包含数值型数据且在应用合成缺失模式前不存在原始缺失值,这为公平比较不同填补方法的性能提供了理想条件。
使用方法
在使用MissBench进行评估时,研究者需要遵循标准化的测试流程。首先将完整的原始数据集按照预定义的13种缺失模式分别引入缺失值,然后应用待评估的填补方法对缺失值进行预测。评估指标采用经过标准化处理的填补准确度,该指标通过计算均方根误差后实施最小-最大归一化处理,最终定义为1减去归一化均方根误差,确保在不同数据集和缺失模式间的可比性。研究者在报告结果时应当展示各方法在所有数据集和缺失模式上的平均性能,同时提供标准差以反映方法的稳定性,这种评估方式能够全面衡量填补方法在不同场景下的鲁棒性和泛化能力。
背景与挑战
背景概述
MissBench作为2025年提出的表格数据缺失值填补基准,由哥伦比亚大学与康奈尔大学联合团队基于TabPFN架构构建。该数据集聚焦于现实场景中普遍存在的表格数据缺失问题,涵盖医学、金融、工程等42个跨领域OpenML数据集,并系统整合了13种缺失机制。其创新性体现在通过线性因子模型生成合成训练数据,结合条目级特征化技术实现百倍加速,推动了表格表示学习在缺失值填补领域的范式转移。
当前挑战
在领域问题层面,MissBench需应对三类核心挑战:完全随机缺失的基准场景、依赖观测数据的随机缺失模式,以及最复杂的非随机缺失机制。构建过程中面临双重挑战:其一是设计覆盖神经网络依赖型缺失、面板数据丢失等11种非随机缺失的生成算法;其二是解决Transformer架构在并行训练中的灾难性遗忘问题,需开发自适应集成方法平衡不同缺失模式的预测性能。
常用场景
经典使用场景
在表格数据缺失值填补研究领域,MissBench作为综合性评估基准,其经典使用场景体现在系统评估各类填补方法的性能表现。该数据集整合了42个来自OpenML的真实世界数据集,覆盖医学、金融、工程等多个领域,并引入13种不同的缺失机制模式,为研究者提供了全面评估填补算法稳健性的实验平台。通过标准化的评估流程,研究人员能够客观比较不同方法在复杂缺失模式下的表现差异。
实际应用
在实际应用层面,MissBench为各行业数据预处理提供了重要参考价值。医疗领域可利用其评估电子健康记录中缺失实验室指标的填补效果;金融行业可借助其测试信用评分模型中缺失客户信息的处理方案;工程领域则能通过该基准优化传感器数据缺失的修复策略。数据集涵盖的多样化领域场景确保了评估结果的广泛适用性,为实际业务中的数据质量提升提供了技术支撑。
衍生相关工作
基于MissBench评估框架,衍生出多项具有影响力的研究工作。TabImpute方法通过引入条目级特征化和预训练Transformer架构,在基准测试中展现了优异的零样本填补能力。EWF-TabPFN利用并行计算优化了传统TabPFN的填补效率,而TabImpute+通过自适应集成策略进一步提升了模型性能。这些工作共同推动了表格表示学习与缺失值填补的交叉研究,为后续基于合成数据预训练的表格基础模型开发奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



