Agrawal-abrupt and Agrawal-gradual, Airlines, Covertype, Electricity Market, Hyperplane-fast, Iris (with artificial timestamps), Moving Squares
收藏github2024-02-16 更新2024-05-31 收录
下载链接:
https://github.com/scikit-multiflow/streaming-datasets
下载链接
链接失效反馈官方服务:
资源简介:
基于Agrawal生成器,代表具有六个名义和三个数值特征的数据流。不同函数将实例映射到两个不同类别。为`AGRa`模拟三个突变漂移,为`AGRg`模拟三个渐变漂移。
Built upon the Agrawal generator, this dataset represents a data stream with six nominal features and three numerical features. Different functions map instances to two distinct classes. Three abrupt drifts are simulated for `AGRa`, and three gradual drifts are simulated for `AGRg`.
创建时间:
2020-05-06
原始信息汇总
数据集概述
1. Agrawal-abrupt and Agrawal-gradual
- 类型: 二分类
- 特征: 基于Agrawal生成器,包含六个名义特征和三个数值特征。模拟了三次突变漂移(
AGRa)和三次渐变漂移(AGRg)。
2. Airlines
- 类型: 二分类
- 描述: 包含美国商业航班的预定起飞信息,目的是预测航班是否延误。
3. Covertype
- 类型: 多分类
- 描述: 包含美国森林服务收集的数据,每个类对应于30x30米森林区域的覆盖类型。
4. Electricity Market
- 类型: 二分类
- 描述: 来自澳大利亚新南威尔士州的电力市场数据,目标类代表价格变化(1=上涨,0=下跌)。
5. Hyperplane-fast
- 类型: 二分类
- 描述: 数据流中快速增量漂移的d维超平面,位置和方向会变化。
6. Iris (with artificial timestamps)
- 类型: 多分类
- 描述: 原始UCI数据集的描述,包含三个类别的50个实例,每个类别代表一种鸢尾植物。
7. Moving Squares
- 类型: 多分类
- 描述: 四个等距分布的正方形均匀分布在水平方向上以恒定速度移动,每个正方形代表一个不同的类。
8. Music (emotions)
- 类型: 多标签分类
- 描述: 包含593首歌曲,基于Tellegen-Watson-Clark模型分为6个音乐情绪集群。
9. SEA-abrupt and SEA-gradual
- 类型: 二分类
- 描述: 使用SEA生成器创建的数据流,包含三个数值特征,模拟了三次突变漂移(
SEAa)和三次渐变漂移(SEAg)。
10. Weather
- 类型: 二分类
- 描述: 包含1949年至1999年间在Bellevue, Nebraska收集的天气信息,目的是预测给定日期是否下雨。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于多种生成器和实际数据采集方法。例如,Agrawal-abrupt和Agrawal-gradual数据集通过Agrawal生成器模拟数据流,包含六种名义特征和三种数值特征,分别模拟了三种突变漂移和渐变漂移。Airlines数据集则来源于美国商业航班的实际起飞数据,用于预测航班是否延误。Covertype数据集由美国林业局长期收集,记录了30×30米森林区域的覆盖类型。Electricity Market数据集则基于澳大利亚新南威尔士州电力市场的价格变动数据。Hyperplane-fast数据集通过随机超平面生成器创建,模拟了快速增量漂移。Iris数据集则通过添加人工时间戳,扩展了经典的鸢尾花数据集。Moving Squares数据集模拟了四个等距分布的方块在水平方向上的匀速运动,每个方块代表一个类别。
特点
该数据集的特点在于其多样性和广泛的应用场景。Agrawal-abrupt和Agrawal-gradual数据集通过模拟漂移现象,适用于研究数据流中的概念漂移问题。Airlines数据集提供了真实的航班延误预测场景,具有实际应用价值。Covertype数据集则通过长期数据采集,提供了多类分类问题的研究基础。Electricity Market数据集反映了电力市场价格变动的动态特性,适合研究时间序列预测。Hyperplane-fast数据集通过快速增量漂移,挑战了模型的适应能力。Iris数据集通过添加时间戳,扩展了经典数据集的应用范围。Moving Squares数据集则通过模拟方块运动,为动态滑动窗口方法提供了测试平台。
使用方法
该数据集的使用方法多样,适用于不同的机器学习任务。Agrawal-abrupt和Agrawal-gradual数据集可用于研究数据流中的概念漂移检测和适应算法。Airlines数据集可用于构建和评估航班延误预测模型。Covertype数据集可用于多类分类算法的性能评估。Electricity Market数据集可用于时间序列预测和价格变动分析。Hyperplane-fast数据集可用于测试模型在快速漂移环境下的适应能力。Iris数据集可用于多类分类算法的基准测试。Moving Squares数据集可用于动态滑动窗口方法的验证和优化。
背景与挑战
背景概述
该数据集集合由多个子数据集组成,涵盖了从分类到流数据学习的多种应用场景。数据集的核心研究问题集中在处理非平稳数据流中的分类任务,尤其是在数据流中存在概念漂移的情况下。主要研究人员包括Heitor Murilo Gomes、Albert Bifet等,他们在2017年发表的论文中提出了自适应随机森林算法,用于处理数据流分类问题。这些数据集在机器学习领域具有重要影响力,特别是在流数据学习和概念漂移检测方面,为相关研究提供了丰富的实验数据。
当前挑战
该数据集集合面临的挑战主要体现在两个方面。首先,数据流中的概念漂移问题对分类算法的鲁棒性提出了严峻考验,尤其是在处理非平稳数据时,如何有效检测和适应漂移成为关键难题。其次,在数据集的构建过程中,如何模拟真实世界中的漂移现象,确保数据集的多样性和代表性,也是一个复杂的技术挑战。此外,部分数据集如Airlines和Electricity Market涉及实时数据,如何在数据流中保持数据的时效性和一致性,也是构建过程中需要克服的难点。
常用场景
经典使用场景
在流数据学习领域,Agrawal-abrupt和Agrawal-gradual数据集被广泛用于模拟数据流中的概念漂移现象。这些数据集通过模拟突发和渐进的漂移,为研究者提供了一个理想的实验平台,以测试和验证流数据分类算法的鲁棒性和适应性。
衍生相关工作
基于Agrawal-abrupt和Agrawal-gradual数据集,研究者们开发了多种流数据分类算法,如自适应随机森林和KNN分类器。这些算法通过引入动态调整机制,能够在数据流中有效检测和适应概念漂移,推动了流数据学习领域的研究进展。
数据集最近研究
最新研究方向
在流数据学习领域,Agrawal-abrupt和Agrawal-gradual数据集因其模拟的突变和渐变漂移特性,成为研究数据流分类算法适应性的重要工具。Airlines数据集则通过真实航班延误数据,推动了实时预测模型的优化。Covertype数据集在森林覆盖类型分类中的应用,展示了多类分类算法在环境监测中的潜力。Electricity Market数据集为电力市场价格波动预测提供了实验基础,促进了动态定价策略的研究。Hyperplane-fast数据集通过快速增量漂移模拟,为高维数据流分类算法的鲁棒性测试提供了支持。Iris数据集结合人工时间戳,扩展了其在时间序列分类中的应用。Moving Squares数据集通过模拟移动方块的动态行为,为滑动窗口方法的验证提供了独特场景。这些数据集在各自领域的前沿研究中,不仅推动了算法创新,也为实际应用场景中的问题解决提供了有力支持。
以上内容由遇见数据集搜集并总结生成



