StreamDatasets
收藏github2023-02-17 更新2024-05-31 收录
下载链接:
https://github.com/Feq1007/StreamDatasets
下载链接
链接失效反馈官方服务:
资源简介:
常见数据流分类任务真实数据集下载地址和人造数据集生成器简介,类别不平衡数据流分类baseline。
Introduction to the download address of real datasets for common data stream classification tasks and the generator for synthetic datasets, along with baseline methods for imbalanced data stream classification.
创建时间:
2023-02-17
原始信息汇总
数据集概述
真实数据集
-
Electricity
- 数据源路径:
benchmark/realworld/elecNormNew/elecNormNew.arff - 目标路径:
benchmark/realworld/elecNormNew/elecNormNew.csv - 数据处理: 将最后一列标签转换为二分类(0或1)
- 数据源路径:
-
Forest Covertype
- 数据源路径:
benchmark/realworld/covtypeNorm/covtypeNorm.arff - 目标路径:
benchmark/realworld/covtypeNorm/covtypeNorm.csv - 数据处理: 无额外处理
- 数据源路径:
-
Airlines
- 数据源路径:
benchmark/realworld/airlines/airlines.arff - 目标路径:
benchmark/realworld/airlines/airlines.csv - 数据处理: 使用OrdinalEncoder处理前四列数据
- 数据源路径:
-
Poker
- 数据源路径:
benchmark/realworld/poker-lsn/poker-lsn.arff - 目标路径:
benchmark/realworld/poker-lsn/poker-lsn.csv - 数据处理: 无额外处理
- 数据源路径:
-
Shuttle
- 数据源路径:
benchmark/realworld/poker-lsn/poker-lsn.arff - 目标路径:
benchmark/realworld/poker-lsn/poker-lsn.csv - 数据处理: 无额外处理
- 数据源路径:
-
Twitter
- 数据源路径:
benchmark/realworld/twitter/twitter.arff - 目标路径:
benchmark/realworld/twitter/twitter.csv - 数据处理: 无额外处理
- 数据源路径:
-
SPAM
- 数据源路径:
benchmark/realworld/spam/spam.arff - 目标路径:
benchmark/realworld/spam/spam.csv - 数据处理: 将最后一列标签转换为二分类(0或1)
- 数据源路径:
-
Weather
- 数据源路径:
benchmark/realworld/weather/weather.arff - 目标路径:
benchmark/realworld/weather/weather.csv - 数据处理: 无额外处理
- 数据源路径:
-
Gas
- 数据源路径:
benchmark/realworld/gas/gas.arff - 目标路径:
benchmark/realworld/gas/gas.csv - 数据处理: 无额外处理
- 数据源路径:
-
Sensor
- 数据源路径:
benchmark/realworld/sensor/sensor.arff - 目标路径:
benchmark/realworld/sensor/sensor.csv - 数据处理: 无额外处理
- KDDCup
- 数据处理: 未提供具体路径和处理方法
- Outdoor
- 数据源路径:
benchmark/realworld/outdoor/outdoor.data和benchmark/realworld/outdoor/outdoor.labels - 目标路径:
benchmark/realworld/outdoor/outdoor.csv - 数据处理: 合并数据和标签,生成CSV文件
- Rialito
- 数据源路径:
benchmark/realworld/rialto/rialto.data和benchmark/realworld/rialto/rialto.labels - 目标路径:
benchmark/realworld/rialto/rialto.csv - 数据处理: 合并数据和标签,生成CSV文件
统计信息
| Dataset | Features | Classes | Instances | Majority | Minority |
|---|---|---|---|---|---|
| airlines | 8 | 2 | 539383 | 55.46 | 44.54 |
| covtypeNorm | 55 | 7 | 581012 | 48.76 | 0.47 |
| elecNormNew | 9 | 2 | 45312 | 57.55 | 42.45 |
| gas | 129 | 6 | 13910 | 21.63 | 11.80 |
| kddcup | 42 | 23 | 494020 | 56.84 | 0.00 |
| outdoor | 22 | 40 | 3999 | 2.50 | 2.48 |
| poker-lsn | 11 | 10 | 829201 | 50.11 | 0.00 |
| rialto | 28 | 10 | 82249 | 10.00 | 9.99 |
| sensor | 6 | 55 | 2219803 | 2.96 | 0.09 |
| shuttle | 10 | 7 | 57999 | 78.60 | 0.02 |
| spam | 500 | 2 | 9324 | 74.40 | 25.60 |
| 31 | 2 | 9090 | 84.29 | 15.71 | |
| weather | 9 | 2 | 18159 | 68.62 | 31.38 |
人工数据集
- 使用
River库中的synth模块生成,具体包括多种数据集生成器,如SEA,Hyperplane等。
搜集汇总
数据集介绍

构建方式
StreamDatasets数据集的构建基于多个真实世界的数据流场景,涵盖了电力、森林覆盖、航空、扑克、航天器、社交媒体、垃圾邮件、天气、气体、传感器等多个领域。这些数据通过ARFF格式存储,并利用Python脚本转换为CSV格式,以便于进一步处理和分析。数据集的构建过程注重数据的多样性和代表性,确保其能够广泛应用于数据流算法的测试与验证。
特点
StreamDatasets数据集的特点在于其广泛覆盖了多个真实世界的应用场景,数据集的规模从数千到数百万条记录不等,特征维度从几个到数百个不等,类别数量也从二元分类到多元分类不等。数据集中的每个子集都经过标准化处理,确保了数据的质量和一致性。此外,数据集还提供了详细的统计信息,如特征数量、类别数量、实例数量以及类别分布情况,便于用户快速了解数据的基本特性。
使用方法
StreamDatasets数据集的使用方法主要通过Python编程实现,用户可以通过`scipy.io`库读取ARFF格式的数据,并将其转换为Pandas DataFrame进行处理。数据集中的每个子集都提供了相应的Python脚本示例,展示了如何加载、预处理和分析数据。此外,数据集还支持与`River`库的集成,用户可以利用该库中的在线学习算法对数据流进行实时处理和分析。通过这些工具和方法,用户可以轻松地在数据流环境中进行实验和验证。
背景与挑战
背景概述
StreamDatasets数据集是为数据流处理领域的研究者提供的一个综合性资源,旨在支持在线学习和数据流算法的实验与验证。该数据集由多个真实世界和人工生成的数据流组成,涵盖了电力、航空、森林覆盖、社交媒体等多个领域的数据。其创建时间可追溯至数据流处理技术兴起的早期阶段,主要研究人员和机构包括MOA(Massive Online Analysis)项目团队以及相关领域的学者。StreamDatasets的核心研究问题在于如何高效处理动态变化的数据流,尤其是在数据分布随时间变化(即概念漂移)的情况下,保持模型的准确性和鲁棒性。该数据集对数据流处理领域的影响力显著,为算法开发、性能评估和基准测试提供了重要支持。
当前挑战
StreamDatasets面临的挑战主要体现在两个方面。首先,数据流处理的核心问题在于如何应对概念漂移,即数据分布随时间变化的现象。这要求算法能够动态适应数据的变化,同时保持高效的计算性能。其次,在数据集的构建过程中,研究人员需要处理数据的异构性、高维性以及不平衡性等问题。例如,某些数据集(如Twitter和Sensor)的类别分布极不平衡,少数类样本的稀缺性增加了模型训练的难度。此外,真实世界数据的噪声和缺失值也为数据预处理和特征工程带来了额外的复杂性。这些挑战不仅考验算法的鲁棒性,也对数据集的构建和标注提出了更高的要求。
常用场景
经典使用场景
StreamDatasets数据集广泛应用于数据流挖掘和在线学习领域,特别是在处理动态变化的数据流时表现出色。该数据集通过提供多种真实世界和合成数据流,支持研究人员开发和测试在线学习算法,如分类、回归和聚类任务。其经典使用场景包括电力需求预测、森林覆盖类型分类以及航空延误预测等。
解决学术问题
StreamDatasets解决了数据流挖掘中的多个关键学术问题,如概念漂移检测、数据不平衡处理以及实时数据流分类。通过提供多样化的数据集,研究人员能够验证算法在动态环境中的鲁棒性和适应性,推动了在线学习算法的发展。该数据集还为数据流挖掘领域的基准测试提供了标准化工具,促进了学术界的交流与合作。
衍生相关工作
StreamDatasets衍生了许多经典研究工作,如基于Hoeffding树的自适应分类器、集成学习方法以及概念漂移检测算法。这些工作不仅推动了数据流挖掘领域的发展,还为其他相关领域提供了理论基础和技术支持。例如,MOA(Massive Online Analysis)框架中的许多算法都是基于该数据集进行开发和验证的。
以上内容由遇见数据集搜集并总结生成



