five

Shades-of-Null

收藏
arXiv2024-09-12 更新2024-09-14 收录
下载链接:
https://github.com/FalaahArifKhan/data-cleaning-stability
下载链接
链接失效反馈
官方服务:
资源简介:
Shades-of-Null是由纽约大学的研究团队创建的一个用于负责任缺失值填补的基准数据集。该数据集包含20952条实验管道,涵盖了多种现实缺失场景,包括单一和多重缺失机制以及缺失值转移。数据集的创建过程基于Rubin的缺失数据框架,并扩展了多机制缺失和缺失值转移的模拟。Shades-of-Null旨在解决机器学习中的数据预处理问题,特别是缺失值处理,以提高模型的预测性能、公平性和稳定性。

Shades-of-Null is a benchmark dataset for responsible missing value imputation developed by a research team at New York University. It contains 20,952 experimental pipelines covering various real-world missing scenarios, including single and multiple missing mechanisms as well as missing value shifting. The dataset was constructed based on Rubin's missing data framework, and extends the simulation of multi-mechanism missingness and missing value shifting. Shades-of-Null aims to address data preprocessing issues in machine learning, particularly missing value handling, to enhance the predictive performance, fairness, and stability of machine learning models.
提供机构:
纽约大学
创建时间:
2024-09-12
搜集汇总
数据集介绍
main_image_url
构建方式
Shades-of-Null 数据集通过模拟现实世界中的缺失数据情况构建而成。首先,研究者从无缺失值的完整数据集开始,然后根据预定义的缺失机制(包括完全随机缺失、随机缺失和非随机缺失)注入缺失值。这些缺失值被设计为在训练集和测试集中以不同的比例和方式出现,以模拟真实数据集中的多机制缺失和缺失值转移现象。为了评估缺失值插补技术的有效性,研究者采用了多种机器学习模型,并使用了包括公平性和稳定性在内的多维度评估指标。
特点
Shades-of-Null 数据集的特点在于其全面性和现实性。它不仅涵盖了传统的 Rubin 缺失值框架(MCAR、MAR 和 MNAR),还模拟了多机制缺失和缺失值转移情况,这些情况在实际应用中更为常见。此外,数据集评估不仅关注预测性能,还考虑了模型的公平性和稳定性,这对于确保模型在现实世界应用中的责任性和可靠性至关重要。Shades-of-Null 数据集的构建还考虑了敏感属性的影响,例如性别和种族,这些属性可能与缺失值的存在相关联,从而可能影响模型的公平性。
使用方法
使用 Shades-of-Null 数据集时,研究者可以评估和比较多种缺失值插补技术的性能。数据集允许研究者通过改变缺失机制和缺失率来模拟不同的缺失数据场景,从而测试插补技术在不同情况下的表现。此外,数据集支持灵活的评估,包括直接评估插补质量指标(如 RMSE 和 F1 分数)和间接评估模型性能指标(如公平性和稳定性)。Shades-of-Null 数据集还提供了工具和脚本,以简化实验流程和结果分析,从而帮助研究者更有效地研究和开发新的缺失值插补方法。
背景与挑战
背景概述
Shades-of-Null数据集是由Falaah Arif Khan, Denys Herasymuk, Nazar Protsiv和Julia Stoyanovich等研究人员在2024年创建的,旨在为负责任的缺失值插补提供一个基准。该数据集包含了最先进的插补技术,并将其嵌入到机器学习开发的生命周期中。研究者们构建了超越Rubin的经典完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)的真实缺失场景,以包括多机制缺失(当数据中存在不同的缺失模式)和缺失转移(当训练和测试之间的缺失机制发生变化)。该数据集的主要研究问题是评估插补技术在预测性能、公平性和稳定性方面的表现,并研究缺失场景、插补方法和模型架构之间的权衡。Shades-of-Null数据集对相关领域产生了重要影响,它为研究人员提供了一个全面且严格的评估新缺失值插补方法的平台,使研究人员能够在各种评估指标和合理的、具有社会意义的缺失场景下进行评估。
当前挑战
Shades-of-Null数据集面临的主要挑战包括:1) 缺失值插补技术在各种缺失类型中的表现差异;2) 评估插补技术在预测性能、公平性和稳定性方面的表现,并研究缺失场景、插补方法和模型架构之间的权衡。此外,由于缺失场景、插补方法的选择以及模型架构的组合,预测性能、公平性和稳定性之间可能存在权衡。这些挑战对于研究人员来说至关重要,因为它们直接影响到缺失值插补技术的有效性和可靠性,以及最终模型的预测性能和社会影响。
常用场景
经典使用场景
Shades-of-Null数据集主要用于评估和比较缺失值插补技术。该数据集包含了多种缺失值机制,如完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR),以及多机制缺失和缺失值变化等更复杂的场景。此外,Shades-of-Null还考虑了模型预测性能、公平性和稳定性等多个方面的评估指标,为研究者提供了一个全面评估缺失值插补方法的平台。
解决学术问题
Shades-of-Null数据集解决了缺失值插补技术在现实世界应用中的评估问题。传统的缺失值插补方法主要关注预测性能,而忽略了模型公平性和稳定性等关键因素。Shades-of-Null数据集通过模拟多种缺失值场景,并考虑了模型预测性能、公平性和稳定性等多个方面的评估指标,为研究者提供了一个全面评估缺失值插补方法的平台,有助于推动缺失值插补技术的进步。
衍生相关工作
Shades-of-Null数据集衍生了多项相关研究。例如,基于Shades-of-Null数据集,研究者可以开发新的缺失值插补方法,并对其进行全面的评估。此外,Shades-of-Null数据集还可以用于研究缺失值插补技术对模型预测性能、公平性和稳定性等方面的影响,从而推动缺失值插补技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作