MODis
收藏arXiv2025-02-17 更新2025-02-27 收录
下载链接:
https://github.com/wang-mengying/modis
下载链接
链接失效反馈官方服务:
资源简介:
MODis是由凯斯西储大学研究团队开发的一种多目标数据发现框架,旨在生成能够在多个用户定义的性能指标上优化模型性能的数据集。该框架将数据集成和机器学习模型性能估计相结合,以追求多目标数据发现的范式。MODis能够针对给定的数据源和模型,生成满足多个性能指标的 skyline 数据集。论文中介绍了MODis的正式计算模型,以及三种可行算法来生成 skyline 数据集,并通过实验验证了算法的有效性。
MODis is a multi-objective data discovery framework developed by the research team at Case Western Reserve University, which aims to generate datasets that optimize model performance across multiple user-defined performance metrics. This framework combines data integration and machine learning model performance estimation to pursue the paradigm of multi-objective data discovery. MODis can generate skyline datasets that meet multiple performance metrics for given data sources and models. The paper introduces the formal computational model of MODis, three feasible algorithms for generating skyline datasets, and verifies the effectiveness of the algorithms via experiments.
提供机构:
凯斯西储大学
创建时间:
2025-02-17
搜集汇总
数据集介绍

构建方式
MODis 数据集是通过优化多个用户定义的模型性能指标来构建的。它将数据源整合成一个天际线数据集,使得模型在这些性能指标上都能达到预期的性能。MODis 被形式化为一个多目标有限状态转换器,并推导出三种可行算法来生成天际线数据集。第一种算法采用“从通用中减少”策略,从通用模式开始,迭代地修剪无望的数据。第二种算法进一步通过双向策略减少了成本,该策略将数据增强和数据减少交替进行。我们还引入了一种多样化算法来减轻天际线数据集中的偏差。
特点
MODis 数据集的特点在于它能够针对多个用户定义的模型性能指标进行优化。它能够生成一个天际线数据集,确保模型在所有性能指标上都能达到预期的性能。MODis 数据集的构建过程是基于多目标优化的,这使得它能够更好地满足用户的需求。此外,MODis 数据集还引入了一种多样化算法,以减轻数据集中的偏差。
使用方法
MODis 数据集的使用方法如下:首先,用户需要定义一组数据源和一个模型。然后,MODis 会选择并整合这些数据源,生成一个天际线数据集。用户可以通过调整参数来控制天际线数据集的大小和多样性。最后,用户可以使用这个天际线数据集来训练和测试模型,以提高模型在多个性能指标上的性能。
背景与挑战
背景概述
MODis数据集是一个由王梦颖等人于2025年提出的多目标数据发现框架,旨在解决数据科学模型所需的高质量数据集的生成问题。MODis框架通过优化多个用户定义的模型性能指标来发现数据集,从而为数据驱动分析提供了新的视角。该框架引入了天空线数据集的概念,即一个模型在所有性能指标上都能达到预期性能的数据集。MODis框架通过多目标有限状态转换器来形式化天空线数据集的生成过程,并提出了三种可行的算法来生成天空线数据集。这些算法包括从通用模式开始迭代剪枝的“reduce-from-universal”策略、双向搜索策略以及多样性算法,以减轻天空线数据集中的数据偏差。
当前挑战
MODis框架面临的主要挑战包括:1) 如何高效地发现满足多个用户定义的模型性能指标的天空线数据集;2) 如何在数据集生成过程中减轻数据偏差的影响;3) 如何在保证数据质量的前提下,提高数据集生成的效率。MODis框架提出的算法在保证数据质量的前提下,能够有效地生成满足多个性能指标的天空线数据集,并在实验中取得了良好的效果。然而,在实际应用中,MODis框架仍然面临着一些挑战,例如如何处理大规模数据集、如何提高算法的扩展性等。
常用场景
经典使用场景
MODis 数据集主要被用于数据科学模型中的数据发现和优化。在数据驱动的分析和机器学习模型训练中,高质量的训练数据集是关键。MODis 通过优化多个用户定义的性能指标,帮助发现和整合数据源,生成符合特定性能要求的“天际线”数据集。这些数据集可以确保模型在所有性能指标上达到预期的性能水平,从而提高模型的准确性和泛化能力。
衍生相关工作
MODis 数据集衍生了多项相关的经典工作。例如,HydraGAN 是一种生成数据增强方法,它使用合作代理模型进行多目标数据生成。与 MODis 不同的是,HydraGAN 需要为目标列指定每个指标,而 MODis 支持用户定义的可配置生成指标。此外,MODis 还可以与数据发现和特征选择方法相结合,如 Kitana 和 METAM,以提高数据发现的效率和效果。
数据集最近研究
最新研究方向
MODis是一个多目标数据发现框架,旨在为数据科学模型发现数据集,以优化多个用户定义的模型性能指标。该框架通过整合数据集成和机器学习模型性能评估,追求多目标数据发现范式。MODis通过优化多个用户定义的性能指标来发现数据集,而不是传统的数据集成和特征工程,后者通常倾向于一个预定义的单个性能目标。MODis的引入是为了解决多变量实验优化、特征选择和人工智能基准测试等领域中存在的一个问题,即发现能够提高模型在多个用户定义的性能指标上的数据集。MODis通过多目标有限状态转换器(FST)的正式计算模型来实现,该模型配备了简单的原始操作符和模型性能预测器。基于此模型,MODis提出了三个可行算法来生成天际线数据集,包括“从通用数据集中减少”策略、双向策略和多样化算法。实验结果表明,MODis在发现天际线数据集方面是有效和高效的,并且在实际应用中具有实用价值。MODis的未来研究方向可能包括查询优化技术,以扩展其在大规模高维数据上的应用,以及分布式天际线数据生成。
相关研究论文
- 1Generating Skyline Datasets for Data Science Models凯斯西储大学 · 2025年
以上内容由遇见数据集搜集并总结生成



