data_unbalanced.csv|机器学习数据集|类别不平衡数据集
收藏数据集概述
数据集文件
- 文件名:
data_unbalanced.csv
- 用途:用于训练和测试机器学习模型。
数据集特征
- 类别分布:
- Type0: 60.2%
- Type1: 26.2%
- Type2: 13.5%
- 问题类型:不平衡分类问题。
数据处理方法
- 探索性数据分析(EDA)
- 数据预处理:处理缺失数据和标准化数据集。
- 数据增强技术测试:
- 不平衡数据集(基准情况)
- 重采样少数类
- 合成少数过采样技术(SMOTE)
- 多数类下采样与少数类重采样
- 重采样前的交叉验证
- 应用SMOTE前的交叉验证
机器学习算法测试
- 随机森林
- 支持向量机
- 逻辑回归
- XGBoost
结果与结论
- 数据增强技术与不同机器学习算法的结合使用。
- 最佳实践:使用imblearn的Pipeline,构建了SMOTE - 特征选择 - 分类器与超参数调优的流程。
- 最佳性能:随机森林分类器的F1分数在测试数据集上达到0.682。
- 结论:通过分析,理解了数据增强技术的工作原理及其与机器学习算法的最佳使用方式,有效避免了常见的应用陷阱。

新能源光伏功率预测数据
采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。
安徽省数据知识产权登记平台 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Global Solar Dataset
在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
ECMWF Reanalysis v5 (ERA5)
ERA5 是第五代 ECMWF 全球气候大气再分析,涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球,并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。
OpenDataLab 收录