five

MikeGreen2710/past_to_25_01_01_split_part_5

收藏
Hugging Face2026-03-12 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/MikeGreen2710/past_to_25_01_01_split_part_5
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: int64 - name: title dtype: string - name: description dtype: string - name: address dtype: string - name: embed_text dtype: string - name: post_date_std dtype: timestamp[ns] - name: price_std dtype: float64 - name: source dtype: string - name: url dtype: string - name: agent_name dtype: string - name: agent_phone dtype: string - name: street_std dtype: string - name: door_direction_std dtype: string - name: number_of_floors_std dtype: float64 - name: house_front_std dtype: float64 - name: road_width_std dtype: float64 - name: total_wid_std dtype: float64 - name: total_len_std dtype: float64 - name: agri_area_std dtype: float64 - name: resi_area_std dtype: float64 - name: resi_cons_area_std dtype: float64 - name: total_area_std dtype: float64 - name: location dtype: int64 - name: project dtype: int64 - name: agriculture_forestry dtype: int64 - name: structure_focus dtype: int64 - name: province_code dtype: float64 - name: district_code dtype: float64 - name: ward_code dtype: float64 - name: matched_province dtype: string - name: matched_district dtype: string - name: matched_ward dtype: string - name: region dtype: string - name: province_ner dtype: string - name: district_ner dtype: string - name: ward_ner dtype: string - name: street_ner dtype: string - name: province_probability dtype: string - name: district_probability dtype: string - name: ward_probability dtype: string - name: street_probability dtype: string - name: province_score dtype: float64 - name: district_score dtype: float64 - name: ward_score dtype: float64 - name: location_probability dtype: float32 - name: project_probability dtype: float32 - name: agriculture_forestry_probability dtype: float32 - name: structure_focus_probability dtype: float32 - name: resolution_info dtype: string - name: resi_area_need_review dtype: bool - name: resi_cons_area_need_review dtype: bool - name: agri_area_need_review dtype: bool splits: - name: train num_bytes: 4976787681 num_examples: 2000000 download_size: 2155275225 dataset_size: 4976787681 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 名称: 编号(id) 数据类型: 64位整数(int64) - 名称: 标题(title) 数据类型: 字符串(string) - 名称: 描述(description) 数据类型: 字符串(string) - 名称: 地址(address) 数据类型: 字符串(string) - 名称: 嵌入文本(embed_text) 数据类型: 字符串(string) - 名称: 标准化发布日期(post_date_std) 数据类型: 纳秒级时间戳(timestamp[ns]) - 名称: 标准化价格(price_std) 数据类型: 64位浮点数(float64) - 名称: 来源(source) 数据类型: 字符串(string) - 名称: 链接(url) 数据类型: 字符串(string) - 名称: 代理人姓名(agent_name) 数据类型: 字符串(string) - 名称: 代理人电话(agent_phone) 数据类型: 字符串(string) - 名称: 标准化街道(street_std) 数据类型: 字符串(string) - 名称: 标准化房屋朝向(door_direction_std) 数据类型: 字符串(string) - 名称: 标准化楼层数(number_of_floors_std) 数据类型: 64位浮点数(float64) - 名称: 标准化房屋面宽(house_front_std) 数据类型: 64位浮点数(float64) - 名称: 标准化道路宽度(road_width_std) 数据类型: 64位浮点数(float64) - 名称: 标准化总宽度(total_wid_std) 数据类型: 64位浮点数(float64) - 名称: 标准化总长度(total_len_std) 数据类型: 64位浮点数(float64) - 名称: 标准化农业面积(agri_area_std) 数据类型: 64位浮点数(float64) - 名称: 标准化住宅面积(resi_area_std) 数据类型: 64位浮点数(float64) - 名称: 标准化住宅套内面积(resi_cons_area_std) 数据类型: 64位浮点数(float64) - 名称: 标准化总面积(total_area_std) 数据类型: 64位浮点数(float64) - 名称: 位置标识(location) 数据类型: 64位整数(int64) - 名称: 项目标识(project) 数据类型: 64位整数(int64) - 名称: 农林相关标识(agriculture_forestry) 数据类型: 64位整数(int64) - 名称: 结构焦点标识(structure_focus) 数据类型: 64位整数(int64) - 名称: 省份编码(province_code) 数据类型: 64位浮点数(float64) - 名称: 区县编码(district_code) 数据类型: 64位浮点数(float64) - 名称: 街区编码(ward_code) 数据类型: 64位浮点数(float64) - 名称: 匹配省份(matched_province) 数据类型: 字符串(string) - 名称: 匹配区县(matched_district) 数据类型: 字符串(string) - 名称: 匹配街区(matched_ward) 数据类型: 字符串(string) - 名称: 区域(region) 数据类型: 字符串(string) - 名称: 命名实体识别省份(province_ner) 数据类型: 字符串(string) - 名称: 命名实体识别区县(district_ner) 数据类型: 字符串(string) - 名称: 命名实体识别街区(ward_ner) 数据类型: 字符串(string) - 名称: 命名实体识别街道(street_ner) 数据类型: 字符串(string) - 名称: 省份识别置信度(province_probability) 数据类型: 字符串(string) - 名称: 区县识别置信度(district_probability) 数据类型: 字符串(string) - 名称: 街区识别置信度(ward_probability) 数据类型: 字符串(string) - 名称: 街道识别置信度(street_probability) 数据类型: 字符串(string) - 名称: 省份识别得分(province_score) 数据类型: 64位浮点数(float64) - 名称: 区县识别得分(district_score) 数据类型: 64位浮点数(float64) - 名称: 街区识别得分(ward_score) 数据类型: 64位浮点数(float64) - 名称: 位置识别置信度(location_probability) 数据类型: 32位浮点数(float32) - 名称: 项目识别置信度(project_probability) 数据类型: 32位浮点数(float32) - 名称: 农林相关识别置信度(agriculture_forestry_probability) 数据类型: 32位浮点数(float32) - 名称: 结构焦点识别置信度(structure_focus_probability) 数据类型: 32位浮点数(float32) - 名称: 核验结果信息(resolution_info) 数据类型: 字符串(string) - 名称: 住宅面积需审核(resi_area_need_review) 数据类型: 布尔类型(bool) - 名称: 住宅套内面积需审核(resi_cons_area_need_review) 数据类型: 布尔类型(bool) - 名称: 农业面积需审核(agri_area_need_review) 数据类型: 布尔类型(bool) 数据划分: - 名称: 训练集(train) 字节数: 4976787681 样本数量: 2000000 下载大小: 2155275225 数据集占用大小: 4976787681 配置项: - 配置名称: 默认配置(default) 数据文件: - 划分: 训练集(train) 路径: data/train-*
提供机构:
MikeGreen2710
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作