California Housing Dataset|住房数据数据集|机器学习数据集
收藏加利福尼亚住房数据集概述
数据集简介
加利福尼亚住房数据集是机器学习社区广泛使用的数据集,特别适用于回归任务。该数据集包含加利福尼亚不同地区的各种住房属性信息。
数据描述
数据集包含以下列:
- longitude: 地区的经度。
- latitude: 地区的纬度。
- housing_median_age: 地区房屋的中位年龄。
- total_rooms: 地区的总房间数。
- total_bedrooms: 地区的总卧室数。
- population: 地区的总人口数。
- households: 地区的总家庭数。
- median_income: 家庭的中位收入。
- median_house_value: 房屋的中位价值(预测的目标变量)。
使用场景
加利福尼亚住房数据集通常用于:
- 回归分析:基于各种特征预测房屋价值。
- 数据探索:分析不同住房属性之间的关系。
- 特征工程:从现有数据创建新特征以提高模型性能。
获取方式
可以通过Python的scikit-learn库轻松加载该数据集:
python from sklearn.datasets import fetch_california_housing
加载数据集
data = fetch_california_housing() X, y = data.data, data.target
结论
加利福尼亚住房数据集为实践回归技术和探索加利福尼亚住房市场趋势提供了丰富的数据来源。其多样化的属性使其成为数据科学家和机器学习从业者的绝佳选择。

Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
中国近海台风路径集合数据集(1945-2023)
1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。
国家海洋科学数据中心 收录
CrowdHuman
CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录