Banking Dataset|银行业务数据集|机器学习数据集
收藏数据集概述
数据集内容
- Banking Dataset.csv: 包含用于分析和模型构建的银行业务相关数据。
- ML_Banking_dataset.ipynb: Jupyter笔记本,包含数据探索、预处理和机器学习模型开发的代码。涵盖数据清洗、可视化、特征工程、模型训练和评估。
项目目标
- 分析银行业务数据集,理解数据中的模式。
- 构建机器学习模型以预测特定结果。
数据处理流程
-
数据探索与预处理
- 数据加载:从CSV文件加载数据至pandas DataFrame。
- 探索性数据分析(EDA):通过可视化和统计摘要分析数据分布和变量间关系。
- 数据清洗:处理缺失值和异常值,确保数据质量。
- 特征工程:创建或转换特征以提升模型性能。
-
机器学习模型开发
- 模型选择:选择适合任务的机器学习算法。
- 训练与验证:数据分为训练集和验证集,进行模型训练和性能验证。
- 超参数调优:通过网格搜索优化模型参数。
- 模型评估:使用多种指标评估模型准确性和鲁棒性。
代码结构
- Jupyter笔记本详细介绍了从数据导入到模型评估的全过程,包括数据探索、清洗、特征工程和多种机器学习模型的选择、训练及评估。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录