five

Concept Drift Datasets v1.0

收藏
github2024-04-16 更新2024-05-31 收录
下载链接:
https://github.com/songqiaohu/THU-Concept-Drift-Datasets-v1.0
下载链接
链接失效反馈
官方服务:
资源简介:
概念漂移描述了流数据随时间变化,其底层分布不可预见的变化[1]。概念漂移问题存在于许多真实世界情况中,如传感器漂移和操作模式的改变[2][3]。及时准确地检测概念漂移对于判断系统状态和提供决策建议具有重要意义[4]。为了更好地测试和评估概念漂移检测算法的性能,我们制作了一些具有已知漂移类型和漂移时间点的数据集,希望能帮助概念漂移检测的发展。

Concept drift refers to the unpredictable changes in the underlying distribution of streaming data over time [1]. The issue of concept drift is prevalent in many real-world scenarios, such as sensor drift and changes in operational modes [2][3]. Timely and accurate detection of concept drift is crucial for assessing system status and providing decision-making recommendations [4]. To better test and evaluate the performance of concept drift detection algorithms, we have created several datasets with known types of drift and specific drift time points, aiming to facilitate the advancement of concept drift detection.
创建时间:
2023-01-02
原始信息汇总

数据集概述

模拟数据集

  • 数据分布展示:包括三种类型的概念漂移模拟:
    • (a) LAbrupt
    • (b) LSudden_3
    • (c) LGradual
    • (a) NLAbrupt
    • (b) NLSudden
    • (c) NLGradual

基准数据集

  • HYP_05:来自scikit-multiflow,通过HyperplaneGenerator生成,包含1000000个样本。
  • SEA_a:来自MOA,通过ConceptDriftStream和SEAGenerator生成,包含1000000个样本。

真实世界数据集(蛟龙)

概念漂移数据集 v1.0

  • 背景:数据集用于测试和评估概念漂移检测算法的性能,包含已知的漂移类型和时间点。
  • 使用方法
    • 直接下载数据集并使用pandas库导入。
    • 使用DatasetsInput.py或DataStreamGenerator.py进行数据集的生成和导入。

数据集介绍

  • Linear:决策边界为直线,通过旋转直线模拟决策边界的改变。
  • CakeRotation:通过旋转圆盘模拟概念漂移,奇数和偶数角区域分别属于不同类别。
  • ChocolateRotation:通过旋转巧克力板模拟概念漂移,奇数和偶数x+y区域分别属于不同类别。
  • RollingTorus:通过滚动第三个圆环模拟概念漂移,不同圆环上的样本属于不同类别。

哈佛概念漂移数据集

  • 包含20个多样化的合成数据集,分为10个突变型和10个渐变型,具有不同的特征数量和噪声。

数据集使用示例

使用pandas导入数据集

python import pandas as pd data = pd.read_csv(xxxxxx/nonlinear_gradual_chocolaterotation_noise_and_redunce.csv) data = data.values X = data[:, 0 : 5] Y = data[:, 5]

使用DatasetsInput.py导入数据集

python from DatasetsInput import Datasets Data = Datasets() X, Y = Data.CNNS_Nonlinear_Gradual_ChocolateRotation()

使用DataStreamGenerator.py生成并导入数据集

python from DataStreamGenerator import DataStreamGenerator C = DataStreamGenerator(class_count=2, attribute_count=2, sample_count=100000, noise=True, redunce_variable=True) X, Y = C.Nonlinear_Sudden_RollingTorus(plot=True, save=True)

搜集汇总
数据集介绍
main_image_url
构建方式
Concept Drift Datasets v1.0 数据集通过模拟和真实世界的数据生成方式构建,旨在模拟概念漂移现象。数据集包括四类:线性、旋转蛋糕、旋转巧克力和滚动圆环,每类数据集均包含四种漂移类型:突然、渐变、循环和复发。这些数据集通过旋转、坐标变换和样本重分类等方法生成,用户可选择是否添加噪声或冗余变量,并可实时绘制样本分布图或保存为视频。此外,还提供了基准数据集和真实世界数据集,如HYP_05和SEA_a,以及来自哈佛大学的合成数据集,这些数据集通过不同的流生成器和函数生成,具有不同的特征数量和噪声水平。
特点
该数据集的主要特点在于其多样性和可定制性。数据集涵盖了多种漂移类型和场景,能够模拟真实世界中的概念漂移现象。用户可以根据需求选择不同的数据集类型,并自由调整噪声和冗余变量的添加,以及实时展示数据分布。此外,数据集还提供了详细的漂移时间和类型信息,便于研究人员进行概念漂移检测算法的测试和评估。
使用方法
使用该数据集时,用户可以直接下载数据集文件并通过pandas库导入,或使用提供的Python脚本类进行数据生成和导入。对于模拟数据集,用户可以通过DataStreamGenerator类生成数据,并选择是否绘制分布图或保存为视频。对于基准数据集和真实世界数据集,用户可以通过相应的代码示例进行数据生成和处理。数据集的多样性和灵活性使其适用于各种概念漂移检测算法的研究和开发。
背景与挑战
背景概述
概念漂移(Concept Drift)是指数据流在时间维度上分布的不可预见性变化,广泛存在于传感器漂移、操作模式变化等现实场景中。清华大学自动化系肖何教授的研究团队于2023年发布了Concept Drift Datasets v1.0,旨在为概念漂移检测算法提供标准化的测试与评估平台。该数据集包含了多种模拟和真实世界的数据集,涵盖了线性、旋转蛋糕、旋转巧克力、滚动环等四类数据集,每类数据集均包含突变、渐变、循环等多种漂移类型。通过这些数据集,研究者能够更好地测试和评估概念漂移检测算法的性能,推动该领域的技术进步。
当前挑战
概念漂移数据集的构建面临多重挑战。首先,模拟数据集的生成需要精确控制漂移类型和时间点,以确保数据的真实性和多样性。其次,真实世界数据集的获取和处理往往涉及复杂的噪声和冗余变量,增加了数据预处理的难度。此外,如何在不同漂移类型和数据分布下保持算法的鲁棒性,是概念漂移检测领域面临的核心挑战。最后,随着数据流规模的增加,如何在实时环境中高效检测和适应概念漂移,也是当前研究亟待解决的问题。
常用场景
经典使用场景
Concept Drift Datasets v1.0 主要用于概念漂移检测算法的性能评估与测试。该数据集通过模拟不同类型的概念漂移(如突然漂移、渐进漂移和周期性漂移),帮助研究者理解和分析模型在数据分布变化时的表现。经典使用场景包括在流数据环境中,通过检测和适应概念漂移,确保模型的实时性和准确性。
衍生相关工作
基于该数据集,研究者已开发出多种概念漂移检测和适应算法,如基于混淆学习的框架(CADM+)和在线主动广义学习方法。这些工作不仅提升了模型在非平稳环境中的表现,还为相关领域的研究提供了新的思路和方法,推动了概念漂移检测技术的发展。
数据集最近研究
最新研究方向
在概念漂移(Concept Drift)领域,最新研究方向主要集中在开发高效的检测与适应算法,以应对流数据中不可预见的分布变化。随着传感器技术和实时数据处理需求的增加,概念漂移问题在工业自动化、金融监控和智能交通等领域变得尤为突出。研究者们致力于设计能够实时检测并适应漂移的算法,以确保系统的稳定性和预测精度。此外,结合多源数据和深度学习技术,研究者们也在探索如何提高漂移检测的准确性和鲁棒性,特别是在非平稳环境和复杂数据分布的情况下。这些研究不仅推动了数据流处理技术的发展,也为实际应用中的决策支持系统提供了更为可靠的技术保障。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作