California Housing Dataset|房价预测数据集|房地产分析数据集
收藏数据集概述
数据集名称
- 名称: California Housing Dataset
数据集来源
- 来源: 1990 U.S. census
数据集详细信息
- 数据粒度: Block level
- 输入特征:
- Location
- Age of house
- Income
- Number of rooms & bedrooms
- Occupancy of household members
- Population
- 输出目标: House Prices
- 实例数量: 20640
数据集用途
- 用途: 用于探索特征选择和维度降低技术,以优化预测模型性能和解释性,特别是在预测加州房价方面。
技术实现细节
- 编程语言: Python
- 使用平台: Google Colab
- 主要包: sklearn, pandas, numpy
实验结果
- 最佳特征选择方法: Random Forest
- R2 Score: 0.75
- MSE: 0.33
结论
- 尽管在加州房价数据集上的模型改进有限,但特征选择和维度降低在实际数据集中的重要性显著,有助于提升模型性能和解释性。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
中国地质调查局: 全国1∶200 000区域水文地质图空间数据库
全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。
DataCite Commons 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录