five

MikeGreen2710/12k_street_alley_clas_training_data_16_features

收藏
Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/MikeGreen2710/12k_street_alley_clas_training_data_16_features
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个与房屋相关的特征,如房屋前部标准、道路宽度标准、车辆区域标准、价格标准、楼层数标准等。此外,数据集还包含地理位置信息,如街道、城市、区、区划等,以及这些信息的编码和标准化版本。数据集还包含一些填充和归一化后的特征。训练集包含11999个样本,总大小为35443512字节。

This dataset is primarily used for real estate analysis, containing various fields related to real estate features such as house front, road width, car area, price, number of floors, and address information including street, city, district, and ward. All data are standardized and encoded, suitable for training machine learning models.
提供机构:
MikeGreen2710
原始信息汇总

数据集概述

数据集特征

  • id: 字符串类型
  • text: 字符串类型
  • label: 浮点数类型
  • house_front_std: 浮点数类型
  • road_wide_std: 浮点数类型
  • car_area_std: 浮点数类型
  • price_std: 浮点数类型
  • number_of_floors_std: 浮点数类型
  • street: 字符串类型
  • city: 字符串类型
  • district: 字符串类型
  • ward: 字符串类型
  • house_front_std_is_filled: 整数类型
  • house_front_std_filled: 浮点数类型
  • house_front_std_normed: 浮点数类型
  • road_wide_std_is_filled: 整数类型
  • road_wide_std_filled: 浮点数类型
  • road_wide_std_normed: 浮点数类型
  • car_area_std_is_filled: 整数类型
  • car_area_std_filled: 浮点数类型
  • car_area_std_normed: 浮点数类型
  • price_std_is_filled: 整数类型
  • price_std_filled: 浮点数类型
  • price_std_normed: 浮点数类型
  • number_of_floors_std_is_filled: 整数类型
  • number_of_floors_std_filled: 浮点数类型
  • number_of_floors_std_normed: 浮点数类型
  • street_filled: 字符串类型
  • city_filled: 字符串类型
  • district_filled: 字符串类型
  • ward_filled: 字符串类型
  • price_median_by_location: 浮点数类型
  • price_median_by_location_normed: 浮点数类型
  • street_encoded: 整数类型
  • city_encoded: 整数类型
  • district_encoded: 整数类型
  • ward_encoded: 整数类型
  • street_encoded_normed: 浮点数类型
  • city_encoded_normed: 浮点数类型
  • district_encoded_normed: 浮点数类型
  • ward_encoded_normed: 浮点数类型
  • address_count_encoded: 整数类型
  • address_count_normed: 浮点数类型
  • extra_data: 浮点数序列类型
  • index_level_0: 整数类型
  • input_ids: 整数序列类型
  • token_type_ids: 整数序列类型
  • attention_mask: 整数序列类型

数据集分割

  • train: 包含11999个样本,占用35443512字节

数据集大小

  • 下载大小: 11817121字节
  • 数据集大小: 35443512字节

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作