MikeGreen2710/12k_street_alley_clas_training_data_16_features
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/MikeGreen2710/12k_street_alley_clas_training_data_16_features
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个与房屋相关的特征,如房屋前部标准、道路宽度标准、车辆区域标准、价格标准、楼层数标准等。此外,数据集还包含地理位置信息,如街道、城市、区、区划等,以及这些信息的编码和标准化版本。数据集还包含一些填充和归一化后的特征。训练集包含11999个样本,总大小为35443512字节。
This dataset is primarily used for real estate analysis, containing various fields related to real estate features such as house front, road width, car area, price, number of floors, and address information including street, city, district, and ward. All data are standardized and encoded, suitable for training machine learning models.
提供机构:
MikeGreen2710
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- text: 字符串类型
- label: 浮点数类型
- house_front_std: 浮点数类型
- road_wide_std: 浮点数类型
- car_area_std: 浮点数类型
- price_std: 浮点数类型
- number_of_floors_std: 浮点数类型
- street: 字符串类型
- city: 字符串类型
- district: 字符串类型
- ward: 字符串类型
- house_front_std_is_filled: 整数类型
- house_front_std_filled: 浮点数类型
- house_front_std_normed: 浮点数类型
- road_wide_std_is_filled: 整数类型
- road_wide_std_filled: 浮点数类型
- road_wide_std_normed: 浮点数类型
- car_area_std_is_filled: 整数类型
- car_area_std_filled: 浮点数类型
- car_area_std_normed: 浮点数类型
- price_std_is_filled: 整数类型
- price_std_filled: 浮点数类型
- price_std_normed: 浮点数类型
- number_of_floors_std_is_filled: 整数类型
- number_of_floors_std_filled: 浮点数类型
- number_of_floors_std_normed: 浮点数类型
- street_filled: 字符串类型
- city_filled: 字符串类型
- district_filled: 字符串类型
- ward_filled: 字符串类型
- price_median_by_location: 浮点数类型
- price_median_by_location_normed: 浮点数类型
- street_encoded: 整数类型
- city_encoded: 整数类型
- district_encoded: 整数类型
- ward_encoded: 整数类型
- street_encoded_normed: 浮点数类型
- city_encoded_normed: 浮点数类型
- district_encoded_normed: 浮点数类型
- ward_encoded_normed: 浮点数类型
- address_count_encoded: 整数类型
- address_count_normed: 浮点数类型
- extra_data: 浮点数序列类型
- index_level_0: 整数类型
- input_ids: 整数序列类型
- token_type_ids: 整数序列类型
- attention_mask: 整数序列类型
数据集分割
- train: 包含11999个样本,占用35443512字节
数据集大小
- 下载大小: 11817121字节
- 数据集大小: 35443512字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



