MikeGreen2710/location_with_extra_feature_outlier_12k_to_train
收藏Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MikeGreen2710/location_with_extra_feature_outlier_12k_to_train
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: description
dtype: string
- name: house_front_std
dtype: float64
- name: road_wide_std
dtype: float64
- name: car_area_std
dtype: float64
- name: price_std
dtype: float64
- name: number_of_floors_std
dtype: float64
- name: street
dtype: string
- name: city
dtype: string
- name: district
dtype: string
- name: ward
dtype: string
- name: id
dtype: string
- name: title
dtype: string
- name: LAN
sequence: string
- name: overlapped
dtype: float64
- name: house_location
dtype: float64
- name: ngo
dtype: bool
- name: house_location_2
dtype: string
- name: address
dtype: string
- name: duong
dtype: bool
- name: house_front_std_is_filled
dtype: int64
- name: house_front_std_filled
dtype: float64
- name: house_front_std_normed
dtype: float64
- name: road_wide_std_is_filled
dtype: int64
- name: road_wide_std_filled
dtype: float64
- name: road_wide_std_normed
dtype: float64
- name: car_area_std_is_filled
dtype: int64
- name: car_area_std_filled
dtype: float64
- name: car_area_std_normed
dtype: float64
- name: price_std_is_filled
dtype: int64
- name: price_std_filled
dtype: float64
- name: price_std_normed
dtype: float64
- name: number_of_floors_std_is_filled
dtype: int64
- name: number_of_floors_std_filled
dtype: float64
- name: number_of_floors_std_normed
dtype: float64
- name: street_filled
dtype: string
- name: city_filled
dtype: string
- name: district_filled
dtype: string
- name: ward_filled
dtype: string
- name: price_median_by_location
dtype: float64
- name: price_median_by_location_normed
dtype: float64
- name: street_encoded
dtype: float64
- name: city_encoded
dtype: float64
- name: district_encoded
dtype: float64
- name: ward_encoded
dtype: float64
- name: street_encoded_normed
dtype: float64
- name: city_encoded_normed
dtype: float64
- name: district_encoded_normed
dtype: float64
- name: ward_encoded_normed
dtype: float64
- name: final_z_score
dtype: float64
- name: outlier
dtype: float64
- name: extra_data
sequence: float64
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 17140098
num_examples: 11999
download_size: 7737446
dataset_size: 17140098
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset is primarily used for real estate analysis, including various attributes of houses such as house description, house front standard, road width standard, car area standard, price standard, number of floors standard, and geographical information like street, city, district, ward, etc. The dataset also contains some normalized and encoded features, as well as identifiers for outliers. The dataset is divided into a training set with 11999 samples.
提供机构:
MikeGreen2710
原始信息汇总
数据集特征概述
基本特征
- description: 描述信息,数据类型为字符串。
- house_front_std: 房屋正面标准,数据类型为浮点数。
- road_wide_std: 道路宽度标准,数据类型为浮点数。
- car_area_std: 停车区域标准,数据类型为浮点数。
- price_std: 价格标准,数据类型为浮点数。
- number_of_floors_std: 楼层数标准,数据类型为浮点数。
- street: 街道,数据类型为字符串。
- city: 城市,数据类型为字符串。
- district: 区,数据类型为字符串。
- ward: 行政区,数据类型为字符串。
- id: 标识符,数据类型为字符串。
- title: 标题,数据类型为字符串。
- LAN: 局域网,数据类型为字符串序列。
- overlapped: 重叠情况,数据类型为浮点数。
- house_location: 房屋位置,数据类型为浮点数。
- ngo: 非政府组织,数据类型为布尔值。
- house_location_2: 房屋位置2,数据类型为字符串。
- address: 地址,数据类型为字符串。
- duong: 街道,数据类型为布尔值。
标准化和填充特征
- house_front_std_is_filled: 房屋正面标准是否填充,数据类型为整数。
- house_front_std_filled: 填充后的房屋正面标准,数据类型为浮点数。
- house_front_std_normed: 标准化后的房屋正面标准,数据类型为浮点数。
- road_wide_std_is_filled: 道路宽度标准是否填充,数据类型为整数。
- road_wide_std_filled: 填充后的道路宽度标准,数据类型为浮点数。
- road_wide_std_normed: 标准化后的道路宽度标准,数据类型为浮点数。
- car_area_std_is_filled: 停车区域标准是否填充,数据类型为整数。
- car_area_std_filled: 填充后的停车区域标准,数据类型为浮点数。
- car_area_std_normed: 标准化后的停车区域标准,数据类型为浮点数。
- price_std_is_filled: 价格标准是否填充,数据类型为整数。
- price_std_filled: 填充后的价格标准,数据类型为浮点数。
- price_std_normed: 标准化后的价格标准,数据类型为浮点数。
- number_of_floors_std_is_filled: 楼层数标准是否填充,数据类型为整数。
- number_of_floors_std_filled: 填充后的楼层数标准,数据类型为浮点数。
- number_of_floors_std_normed: 标准化后的楼层数标准,数据类型为浮点数。
编码和填充后的地理特征
- street_filled: 填充后的街道,数据类型为字符串。
- city_filled: 填充后的城市,数据类型为字符串。
- district_filled: 填充后的区,数据类型为字符串。
- ward_filled: 填充后的行政区,数据类型为字符串。
- price_median_by_location: 按位置计算的价格中位数,数据类型为浮点数。
- price_median_by_location_normed: 标准化后的按位置计算的价格中位数,数据类型为浮点数。
- street_encoded: 编码后的街道,数据类型为浮点数。
- city_encoded: 编码后的城市,数据类型为浮点数。
- district_encoded: 编码后的区,数据类型为浮点数。
- ward_encoded: 编码后的行政区,数据类型为浮点数。
- street_encoded_normed: 标准化后的编码街道,数据类型为浮点数。
- city_encoded_normed: 标准化后的编码城市,数据类型为浮点数。
- district_encoded_normed: 标准化后的编码区,数据类型为浮点数。
- ward_encoded_normed: 标准化后的编码行政区,数据类型为浮点数。
其他特征
- final_z_score: 最终Z分数,数据类型为浮点数。
- outlier: 异常值,数据类型为浮点数。
- extra_data: 额外数据,数据类型为浮点数序列。
- index_level_0: 索引级别0,数据类型为整数。
数据集分割
- train: 训练集,包含11999个样本,数据大小为17140098字节。
数据集大小
- download_size: 下载大小为7737446字节。
- dataset_size: 数据集大小为17140098字节。



