five

MikeGreen2710/location_extra_features_outlier_2tr7

收藏
Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MikeGreen2710/location_extra_features_outlier_2tr7
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: description dtype: string - name: house_front_std dtype: float64 - name: road_wide_std dtype: float64 - name: car_area_std dtype: float64 - name: price_std dtype: float64 - name: number_of_floors_std dtype: float64 - name: street dtype: string - name: city dtype: string - name: district dtype: string - name: ward dtype: string - name: id dtype: string - name: title dtype: string - name: LAN sequence: string - name: overlapped dtype: float64 - name: house_location dtype: float64 - name: ngo dtype: bool - name: house_location_2 dtype: string - name: address dtype: string - name: duong dtype: bool - name: house_front_std_is_filled dtype: int64 - name: house_front_std_filled dtype: float64 - name: house_front_std_normed dtype: float64 - name: road_wide_std_is_filled dtype: int64 - name: road_wide_std_filled dtype: float64 - name: road_wide_std_normed dtype: float64 - name: car_area_std_is_filled dtype: int64 - name: car_area_std_filled dtype: float64 - name: car_area_std_normed dtype: float64 - name: price_std_is_filled dtype: int64 - name: price_std_filled dtype: float64 - name: price_std_normed dtype: float64 - name: number_of_floors_std_is_filled dtype: int64 - name: number_of_floors_std_filled dtype: float64 - name: number_of_floors_std_normed dtype: float64 - name: street_filled dtype: string - name: city_filled dtype: string - name: district_filled dtype: string - name: ward_filled dtype: string - name: price_median_by_location dtype: float64 - name: price_median_by_location_normed dtype: float64 - name: street_encoded dtype: float64 - name: city_encoded dtype: float64 - name: district_encoded dtype: float64 - name: ward_encoded dtype: float64 - name: street_encoded_normed dtype: float64 - name: city_encoded_normed dtype: float64 - name: district_encoded_normed dtype: float64 - name: ward_encoded_normed dtype: float64 - name: final_z_score dtype: float64 - name: outlier dtype: float64 - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 3086999189 num_examples: 2718388 download_size: 1396537268 dataset_size: 3086999189 configs: - config_name: default data_files: - split: train path: data/train-* ---

This dataset is primarily used for real estate analysis, including features such as house front standard, road width standard, car area standard, price standard, and geographical location information along with normalized features. The dataset is divided into a training set with 2,718,388 samples.
提供机构:
MikeGreen2710
原始信息汇总

数据集特征概述

基本特征

  • description: 字符串类型
  • house_front_std: 标准化房屋正面宽度,浮点数类型
  • road_wide_std: 标准化道路宽度,浮点数类型
  • car_area_std: 标准化停车位面积,浮点数类型
  • price_std: 标准化价格,浮点数类型
  • number_of_floors_std: 标准化楼层数,浮点数类型
  • street: 街道名称,字符串类型
  • city: 城市名称,字符串类型
  • district: 区名,字符串类型
  • ward: 社区名,字符串类型
  • id: 唯一标识符,字符串类型
  • title: 标题,字符串类型
  • LAN: 序列化字符串类型
  • overlapped: 重叠情况,浮点数类型
  • house_location: 房屋位置,浮点数类型
  • ngo: 布尔类型
  • house_location_2: 房屋位置2,字符串类型
  • address: 完整地址,字符串类型
  • duong: 布尔类型

标准化与填充特征

  • house_front_std_is_filled: 房屋正面宽度是否填充,整数类型
  • house_front_std_filled: 填充后的房屋正面宽度,浮点数类型
  • house_front_std_normed: 标准化后的房屋正面宽度,浮点数类型
  • road_wide_std_is_filled: 道路宽度是否填充,整数类型
  • road_wide_std_filled: 填充后的道路宽度,浮点数类型
  • road_wide_std_normed: 标准化后的道路宽度,浮点数类型
  • car_area_std_is_filled: 停车位面积是否填充,整数类型
  • car_area_std_filled: 填充后的停车位面积,浮点数类型
  • car_area_std_normed: 标准化后的停车位面积,浮点数类型
  • price_std_is_filled: 价格是否填充,整数类型
  • price_std_filled: 填充后的价格,浮点数类型
  • price_std_normed: 标准化后的价格,浮点数类型
  • number_of_floors_std_is_filled: 楼层数是否填充,整数类型
  • number_of_floors_std_filled: 填充后的楼层数,浮点数类型
  • number_of_floors_std_normed: 标准化后的楼层数,浮点数类型

地址相关特征

  • street_filled: 填充后的街道名称,字符串类型
  • city_filled: 填充后的城市名称,字符串类型
  • district_filled: 填充后的区名,字符串类型
  • ward_filled: 填充后的社区名,字符串类型

价格与编码特征

  • price_median_by_location: 按位置计算的价格中位数,浮点数类型
  • price_median_by_location_normed: 标准化后的价格中位数,浮点数类型
  • street_encoded: 街道编码,浮点数类型
  • city_encoded: 城市编码,浮点数类型
  • district_encoded: 区编码,浮点数类型
  • ward_encoded: 社区编码,浮点数类型
  • street_encoded_normed: 标准化后的街道编码,浮点数类型
  • city_encoded_normed: 标准化后的城市编码,浮点数类型
  • district_encoded_normed: 标准化后的区编码,浮点数类型
  • ward_encoded_normed: 标准化后的社区编码,浮点数类型

其他特征

  • final_z_score: 最终Z分数,浮点数类型
  • outlier: 异常值标识,浮点数类型
  • index_level_0: 索引级别0,整数类型

数据集分割

  • train: 训练集,包含2718388个样本,数据大小为3086999189字节

数据集大小

  • 下载大小: 1396537268字节
  • 数据集大小: 3086999189字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作