MikeGreen2710/past_to_25_01_01_split_part_5
收藏Hugging Face2026-03-12 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/MikeGreen2710/past_to_25_01_01_split_part_5
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: title
dtype: string
- name: description
dtype: string
- name: address
dtype: string
- name: embed_text
dtype: string
- name: post_date_std
dtype: timestamp[ns]
- name: price_std
dtype: float64
- name: source
dtype: string
- name: url
dtype: string
- name: agent_name
dtype: string
- name: agent_phone
dtype: string
- name: street_std
dtype: string
- name: door_direction_std
dtype: string
- name: number_of_floors_std
dtype: float64
- name: house_front_std
dtype: float64
- name: road_width_std
dtype: float64
- name: total_wid_std
dtype: float64
- name: total_len_std
dtype: float64
- name: agri_area_std
dtype: float64
- name: resi_area_std
dtype: float64
- name: resi_cons_area_std
dtype: float64
- name: total_area_std
dtype: float64
- name: location
dtype: int64
- name: project
dtype: int64
- name: agriculture_forestry
dtype: int64
- name: structure_focus
dtype: int64
- name: province_code
dtype: float64
- name: district_code
dtype: float64
- name: ward_code
dtype: float64
- name: matched_province
dtype: string
- name: matched_district
dtype: string
- name: matched_ward
dtype: string
- name: region
dtype: string
- name: province_ner
dtype: string
- name: district_ner
dtype: string
- name: ward_ner
dtype: string
- name: street_ner
dtype: string
- name: province_probability
dtype: string
- name: district_probability
dtype: string
- name: ward_probability
dtype: string
- name: street_probability
dtype: string
- name: province_score
dtype: float64
- name: district_score
dtype: float64
- name: ward_score
dtype: float64
- name: location_probability
dtype: float32
- name: project_probability
dtype: float32
- name: agriculture_forestry_probability
dtype: float32
- name: structure_focus_probability
dtype: float32
- name: resolution_info
dtype: string
- name: resi_area_need_review
dtype: bool
- name: resi_cons_area_need_review
dtype: bool
- name: agri_area_need_review
dtype: bool
splits:
- name: train
num_bytes: 4976787681
num_examples: 2000000
download_size: 2155275225
dataset_size: 4976787681
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 名称: 编号(id)
数据类型: 64位整数(int64)
- 名称: 标题(title)
数据类型: 字符串(string)
- 名称: 描述(description)
数据类型: 字符串(string)
- 名称: 地址(address)
数据类型: 字符串(string)
- 名称: 嵌入文本(embed_text)
数据类型: 字符串(string)
- 名称: 标准化发布日期(post_date_std)
数据类型: 纳秒级时间戳(timestamp[ns])
- 名称: 标准化价格(price_std)
数据类型: 64位浮点数(float64)
- 名称: 来源(source)
数据类型: 字符串(string)
- 名称: 链接(url)
数据类型: 字符串(string)
- 名称: 代理人姓名(agent_name)
数据类型: 字符串(string)
- 名称: 代理人电话(agent_phone)
数据类型: 字符串(string)
- 名称: 标准化街道(street_std)
数据类型: 字符串(string)
- 名称: 标准化房屋朝向(door_direction_std)
数据类型: 字符串(string)
- 名称: 标准化楼层数(number_of_floors_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化房屋面宽(house_front_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化道路宽度(road_width_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化总宽度(total_wid_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化总长度(total_len_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化农业面积(agri_area_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化住宅面积(resi_area_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化住宅套内面积(resi_cons_area_std)
数据类型: 64位浮点数(float64)
- 名称: 标准化总面积(total_area_std)
数据类型: 64位浮点数(float64)
- 名称: 位置标识(location)
数据类型: 64位整数(int64)
- 名称: 项目标识(project)
数据类型: 64位整数(int64)
- 名称: 农林相关标识(agriculture_forestry)
数据类型: 64位整数(int64)
- 名称: 结构焦点标识(structure_focus)
数据类型: 64位整数(int64)
- 名称: 省份编码(province_code)
数据类型: 64位浮点数(float64)
- 名称: 区县编码(district_code)
数据类型: 64位浮点数(float64)
- 名称: 街区编码(ward_code)
数据类型: 64位浮点数(float64)
- 名称: 匹配省份(matched_province)
数据类型: 字符串(string)
- 名称: 匹配区县(matched_district)
数据类型: 字符串(string)
- 名称: 匹配街区(matched_ward)
数据类型: 字符串(string)
- 名称: 区域(region)
数据类型: 字符串(string)
- 名称: 命名实体识别省份(province_ner)
数据类型: 字符串(string)
- 名称: 命名实体识别区县(district_ner)
数据类型: 字符串(string)
- 名称: 命名实体识别街区(ward_ner)
数据类型: 字符串(string)
- 名称: 命名实体识别街道(street_ner)
数据类型: 字符串(string)
- 名称: 省份识别置信度(province_probability)
数据类型: 字符串(string)
- 名称: 区县识别置信度(district_probability)
数据类型: 字符串(string)
- 名称: 街区识别置信度(ward_probability)
数据类型: 字符串(string)
- 名称: 街道识别置信度(street_probability)
数据类型: 字符串(string)
- 名称: 省份识别得分(province_score)
数据类型: 64位浮点数(float64)
- 名称: 区县识别得分(district_score)
数据类型: 64位浮点数(float64)
- 名称: 街区识别得分(ward_score)
数据类型: 64位浮点数(float64)
- 名称: 位置识别置信度(location_probability)
数据类型: 32位浮点数(float32)
- 名称: 项目识别置信度(project_probability)
数据类型: 32位浮点数(float32)
- 名称: 农林相关识别置信度(agriculture_forestry_probability)
数据类型: 32位浮点数(float32)
- 名称: 结构焦点识别置信度(structure_focus_probability)
数据类型: 32位浮点数(float32)
- 名称: 核验结果信息(resolution_info)
数据类型: 字符串(string)
- 名称: 住宅面积需审核(resi_area_need_review)
数据类型: 布尔类型(bool)
- 名称: 住宅套内面积需审核(resi_cons_area_need_review)
数据类型: 布尔类型(bool)
- 名称: 农业面积需审核(agri_area_need_review)
数据类型: 布尔类型(bool)
数据划分:
- 名称: 训练集(train)
字节数: 4976787681
样本数量: 2000000
下载大小: 2155275225
数据集占用大小: 4976787681
配置项:
- 配置名称: 默认配置(default)
数据文件:
- 划分: 训练集(train)
路径: data/train-*
提供机构:
MikeGreen2710



