five

Subgroup Agrawal Drift Dataset

收藏
arXiv2024-08-27 更新2024-08-29 收录
下载链接:
https://github.com/fgiobergia/subgroup-agrawal-drift
下载链接
链接失效反馈
官方服务:
资源简介:
Subgroup Agrawal Drift Dataset是由都灵理工大学和加州大学圣克鲁兹分校的研究团队基于Agrawal生成器创建的合成数据集,旨在模拟数据流中的局部漂移现象。数据集包含10,000条记录,具有六种数值属性和三种分类属性,用于二元分类任务。数据集的创建过程中,通过随机选择子群体并引入噪声来模拟局部漂移。该数据集主要用于评估和改进现有的漂移检测技术,特别是在局部漂移检测方面的性能。

The Subgroup Agrawal Drift Dataset is a synthetic dataset developed by research teams from Politecnico di Torino and the University of California, Santa Cruz, based on the Agrawal generator. It aims to simulate local drift phenomena in data streams. This dataset contains 10,000 records, with six numerical attributes and three categorical attributes, and is designed for binary classification tasks. During its creation, local drift is simulated by randomly selecting subgroups and introducing noise. This dataset is primarily used to evaluate and improve existing drift detection technologies, particularly their performance in local drift detection.
提供机构:
都灵理工大学, 加州大学圣克鲁兹分校
创建时间:
2024-08-27
搜集汇总
数据集介绍
main_image_url
构建方式
Subgroup Agrawal Drift Dataset 是基于 Agrawal 生成器的合成数据集,其中通过在随机选择的子群体中注入噪声来模拟局部化漂移。该数据集的构建包括定义一个目标子群体,并仅在此子群体中引入漂移,而保持其余数据稳定,从而在受控环境中评估各种漂移检测技术的有效性。
使用方法
使用该数据集时,研究者可以设定不同的子群体大小,通过注入漂移来模拟不同场景下的概念漂移。数据集提供了各种漂移检测技术在不同子群体大小下的性能评估,有助于理解和改进漂移检测方法。
背景与挑战
背景概述
Subgroup Agrawal Drift Dataset是由Flavio Giobergia等研究人员提出的一个合成数据集,旨在探索和评估在数据流中检测局部化概念漂移的局限性。该数据集基于Agrawal生成器,通过在随机选择的子群体中引入噪声来模拟局部化漂移现象,为研究 drift detection 方法在处理数据流中的子群体漂移提供了可控的环境。该数据集的提出,凸显了识别数据流中局部化漂移的重要性,并对现有的漂移检测方法提出了挑战。
当前挑战
该数据集相关的挑战主要包括:1)现有的漂移检测技术往往假设漂移是全局性的,而忽略了在现实世界中漂移可能仅影响数据中的特定子群体;2)构建过程中,如何定义和生成具有特定大小的目标子群体,以及如何在子群体中有效地引入漂移噪声,保证漂移的局部化特性;3)在子群体大小较小时,现有的漂移检测技术性能显著下降,难以有效识别局部化漂移,导致模型对特定子群体的性能退化。
常用场景
经典使用场景
Subgroup Agrawal Drift Dataset是一款针对局部化概念漂移检测的合成数据集。该数据集在Agrawal生成器的基础上,通过在随机选择的子群体中引入噪声来模拟局部化的概念漂移,为评估各种漂移检测方法在局部漂移场景下的有效性提供了一个可控的环境。
解决学术问题
该数据集解决了传统漂移检测方法在处理局部化漂移时的局限性,即只能检测到全局性的数据分布变化,而无法有效识别仅影响数据子集的局部化漂移。这对于确保模型在不同子群体中的准确性和可靠性具有重要意义。
实际应用
在实际应用中,Subgroup Agrawal Drift Dataset可用于评估和改进数据流挖掘中的漂移检测算法,特别是在需要关注特定子群体行为的场景,如金融欺诈检测、用户行为分析等,能够帮助模型适应局部化变化,提高预测的准确性。
数据集最近研究
最新研究方向
本文针对现有漂移检测方法在处理局部化漂移时的局限性,提出了一个新的合成数据集——Subgroup Agrawal Drift Dataset。该数据集通过在随机选择的子群体中引入噪声来模拟局部化漂移,从而为评估漂移检测方法在局部漂移场景下的性能提供了一个控制环境。研究结果表明,当漂移局限于较小的子群体时,常用的漂移检测技术往往无法有效检测到漂移,导致模型性能下降。这一发现指出了当前漂移检测技术的一个潜在缺陷,即忽视了对特定子群体的重要漂移,可能会使得模型在这些子群体上表现不佳。
相关研究论文
  • 1
    A Synthetic Benchmark to Explore Limitations of Localized Drift Detections都灵理工大学, 加州大学圣克鲁兹分校 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作