Concept Drift Datasets v1.0|概念漂移数据集|数据集数据集

github2024-04-16 更新2024-05-31 收录

概念漂移

数据集

下载链接：

https://github.com/songqiaohu/THU-Concept-Drift-Datasets-v1.0

下载链接

链接失效反馈

资源简介：

概念漂移描述了流数据随时间变化，其底层分布不可预见的变化[1]。概念漂移问题存在于许多真实世界情况中，如传感器漂移和操作模式的改变[2][3]。及时准确地检测概念漂移对于判断系统状态和提供决策建议具有重要意义[4]。为了更好地测试和评估概念漂移检测算法的性能，我们制作了一些具有已知漂移类型和漂移时间点的数据集，希望能帮助概念漂移检测的发展。

Concept drift refers to the unpredictable changes in the underlying distribution of streaming data over time [1]. The issue of concept drift is prevalent in many real-world scenarios, such as sensor drift and changes in operational modes [2][3]. Timely and accurate detection of concept drift is crucial for assessing system status and providing decision-making recommendations [4]. To better test and evaluate the performance of concept drift detection algorithms, we have created several datasets with known types of drift and specific drift time points, aiming to facilitate the advancement of concept drift detection.

创建时间：

2023-01-02

原始信息汇总

数据集概述

模拟数据集

数据分布展示：包括三种类型的概念漂移模拟：
- (a) LAbrupt
- (b) LSudden_3
- (c) LGradual
- (a) NLAbrupt
- (b) NLSudden
- (c) NLGradual

基准数据集

HYP_05：来自scikit-multiflow，通过HyperplaneGenerator生成，包含1000000个样本。
SEA_a：来自MOA，通过ConceptDriftStream和SEAGenerator生成，包含1000000个样本。

真实世界数据集（蛟龙）

数据集详情请参考：JiaolongDSMS_datasets

概念漂移数据集 v1.0

背景：数据集用于测试和评估概念漂移检测算法的性能，包含已知的漂移类型和时间点。
使用方法：
- 直接下载数据集并使用pandas库导入。
- 使用DatasetsInput.py或DataStreamGenerator.py进行数据集的生成和导入。

数据集介绍

Linear：决策边界为直线，通过旋转直线模拟决策边界的改变。
CakeRotation：通过旋转圆盘模拟概念漂移，奇数和偶数角区域分别属于不同类别。
ChocolateRotation：通过旋转巧克力板模拟概念漂移，奇数和偶数x+y区域分别属于不同类别。
RollingTorus：通过滚动第三个圆环模拟概念漂移，不同圆环上的样本属于不同类别。

哈佛概念漂移数据集

包含20个多样化的合成数据集，分为10个突变型和10个渐变型，具有不同的特征数量和噪声。

数据集使用示例

使用pandas导入数据集

python import pandas as pd data = pd.read_csv(xxxxxx/nonlinear_gradual_chocolaterotation_noise_and_redunce.csv) data = data.values X = data[:, 0 : 5] Y = data[:, 5]

使用DatasetsInput.py导入数据集

python from DatasetsInput import Datasets Data = Datasets() X, Y = Data.CNNS_Nonlinear_Gradual_ChocolateRotation()

使用DataStreamGenerator.py生成并导入数据集

python from DataStreamGenerator import DataStreamGenerator C = DataStreamGenerator(class_count=2, attribute_count=2, sample_count=100000, noise=True, redunce_variable=True) X, Y = C.Nonlinear_Sudden_RollingTorus(plot=True, save=True)

AI搜集汇总

数据集介绍

构建方式

Concept Drift Datasets v1.0 数据集通过模拟和真实世界的数据生成方式构建，旨在模拟概念漂移现象。数据集包括四类：线性、旋转蛋糕、旋转巧克力和滚动圆环，每类数据集均包含四种漂移类型：突然、渐变、循环和复发。这些数据集通过旋转、坐标变换和样本重分类等方法生成，用户可选择是否添加噪声或冗余变量，并可实时绘制样本分布图或保存为视频。此外，还提供了基准数据集和真实世界数据集，如HYP_05和SEA_a，以及来自哈佛大学的合成数据集，这些数据集通过不同的流生成器和函数生成，具有不同的特征数量和噪声水平。

特点

该数据集的主要特点在于其多样性和可定制性。数据集涵盖了多种漂移类型和场景，能够模拟真实世界中的概念漂移现象。用户可以根据需求选择不同的数据集类型，并自由调整噪声和冗余变量的添加，以及实时展示数据分布。此外，数据集还提供了详细的漂移时间和类型信息，便于研究人员进行概念漂移检测算法的测试和评估。

使用方法

使用该数据集时，用户可以直接下载数据集文件并通过pandas库导入，或使用提供的Python脚本类进行数据生成和导入。对于模拟数据集，用户可以通过DataStreamGenerator类生成数据，并选择是否绘制分布图或保存为视频。对于基准数据集和真实世界数据集，用户可以通过相应的代码示例进行数据生成和处理。数据集的多样性和灵活性使其适用于各种概念漂移检测算法的研究和开发。

背景与挑战

背景概述

概念漂移（Concept Drift）是指数据流在时间维度上分布的不可预见性变化，广泛存在于传感器漂移、操作模式变化等现实场景中。清华大学自动化系肖何教授的研究团队于2023年发布了Concept Drift Datasets v1.0，旨在为概念漂移检测算法提供标准化的测试与评估平台。该数据集包含了多种模拟和真实世界的数据集，涵盖了线性、旋转蛋糕、旋转巧克力、滚动环等四类数据集，每类数据集均包含突变、渐变、循环等多种漂移类型。通过这些数据集，研究者能够更好地测试和评估概念漂移检测算法的性能，推动该领域的技术进步。

当前挑战

概念漂移数据集的构建面临多重挑战。首先，模拟数据集的生成需要精确控制漂移类型和时间点，以确保数据的真实性和多样性。其次，真实世界数据集的获取和处理往往涉及复杂的噪声和冗余变量，增加了数据预处理的难度。此外，如何在不同漂移类型和数据分布下保持算法的鲁棒性，是概念漂移检测领域面临的核心挑战。最后，随着数据流规模的增加，如何在实时环境中高效检测和适应概念漂移，也是当前研究亟待解决的问题。

常用场景

经典使用场景

Concept Drift Datasets v1.0 主要用于概念漂移检测算法的性能评估与测试。该数据集通过模拟不同类型的概念漂移（如突然漂移、渐进漂移和周期性漂移），帮助研究者理解和分析模型在数据分布变化时的表现。经典使用场景包括在流数据环境中，通过检测和适应概念漂移，确保模型的实时性和准确性。

衍生相关工作

基于该数据集，研究者已开发出多种概念漂移检测和适应算法，如基于混淆学习的框架（CADM+）和在线主动广义学习方法。这些工作不仅提升了模型在非平稳环境中的表现，还为相关领域的研究提供了新的思路和方法，推动了概念漂移检测技术的发展。

数据集最近研究

最新研究方向

在概念漂移（Concept Drift）领域，最新研究方向主要集中在开发高效的检测与适应算法，以应对流数据中不可预见的分布变化。随着传感器技术和实时数据处理需求的增加，概念漂移问题在工业自动化、金融监控和智能交通等领域变得尤为突出。研究者们致力于设计能够实时检测并适应漂移的算法，以确保系统的稳定性和预测精度。此外，结合多源数据和深度学习技术，研究者们也在探索如何提高漂移检测的准确性和鲁棒性，特别是在非平稳环境和复杂数据分布的情况下。这些研究不仅推动了数据流处理技术的发展，也为实际应用中的决策支持系统提供了更为可靠的技术保障。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准，尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率（VHR，0.5m/像素）Google Earth (GE) 图像块对组成，大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化，尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里，我们关注与建筑相关的变化，包括建筑增长（从土壤/草地/硬化地面或在建建筑到新建筑区域的变化）和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签（1 表示变化，0 表示不变）进行注释。我们数据集中的每个样本都由一个注释器进行注释，然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录