five

bishkek-real-estate

收藏
Hugging Face2026-01-09 更新2026-01-10 收录
下载链接:
https://huggingface.co/datasets/raimbekovm/bishkek-real-estate
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个来自吉尔吉斯斯坦比什凯克的全面公寓列表数据集,包含价格、特征、描述和照片。数据集包含2025年12月至2026年1月从house.kg(吉尔吉斯斯坦最大的房地产平台)爬取的8,821条房地产列表。这是Hugging Face上首个来自中亚的公开房地产数据集,具有多模态特性(表格数据+64,000多张房产照片),包含39个字段,如坐标、描述、设施等。数据集可用于房价预测模型、房地产市场分析、多模态房产搜索/推荐系统、计算机视觉(内外部分类)和自然语言处理(俄语/吉尔吉斯语房产描述)。
创建时间:
2026-01-09
原始信息汇总

Bishkek Real Estate Dataset 数据集概述

数据集基本信息

  • 数据集名称:Bishkek Real Estate Dataset
  • 发布者:raimbekovm
  • 发布日期:2025年
  • 许可协议:CC-BY-4.0
  • 任务类别:表格回归、表格分类
  • 语言:俄语、吉尔吉斯语
  • 标签:房地产、住房、价格、中亚、吉尔吉斯斯坦、比什凯克、多模态、房产
  • 数据规模:1K<n<10K
  • 数据记录数量:8,821条房地产列表

数据集描述

这是一个来自吉尔吉斯斯坦比什凯克的公寓列表综合数据集,包含价格、特征、描述和照片。数据于2025年12月至2026年1月从house.kg(吉尔吉斯斯坦最大的房地产平台)抓取。

数据集特点

  • 是Hugging Face上首个来自中亚的公开房地产数据集。
  • 多模态:包含表格数据和超过64,000张房产照片。
  • 特征丰富:包含39个列,涵盖坐标、描述、设施等。
  • 真实市场数据:包含活跃列表中的实际美元价格。

数据集结构

数据字段

数据包含39个字段,关键字段包括:

  • listing_id:唯一列表标识符(填充率100%)
  • price_usd:美元价格(填充率100%)
  • price_per_m2_usd:每平方米美元价格(填充率100%)
  • rooms:房间数量(填充率99%)
  • total_area_m2:总面积(平方米)(填充率100%)
  • floor:楼层(填充率99%)
  • total_floors:建筑总楼层(填充率99%)
  • building_type:建筑类型(填充率100%)
  • year_built:建造年份(填充率73%)
  • condition:公寓状况(填充率92%)
  • address:完整地址(填充率100%)
  • district:城市区域(填充率99%)
  • latitude:GPS纬度(填充率100%)
  • longitude:GPS经度(填充率100%)
  • description:俄语列表描述(填充率87%)
  • photo_count:可用照片数量(填充率100%)
  • photos_downloaded:已下载照片数量(填充率100%)

分类值(俄语)

  • building_type:кирпич(砖)、панель(板)、монолит(整体)、блок(块)
  • condition:хорошее(良好)、отличное(优秀)、среднее(一般)、под самоотделку(需要装修)
  • seller_type:от собственника(业主出售)、от агента(代理出售)

数据划分

  • 训练集:8,821个示例

照片数据

照片单独提供,按listing_id组织在images/{listing_id}/目录下。总计超过64,000张照片,覆盖7,800多个列表。

模型训练结果(2026-01-10)

提供了完整的训练笔记本(model_training.ipynb),包含以下内容:

特征(总计39个)

  • 核心特征:房间数、面积、楼层、建造年份、坐标
  • POI距离:10个特征(市场、公园、商场、大学、医院、交通、行政、高级区域)
  • 编码特征:区域、JK、building_series的目标编码
  • 衍生特征:floor_ratio、building_age、is_premium_zone等

模型架构

  • 集成模型:XGBoost + LightGBM + CatBoost,带Ridge元学习器
  • 超参数优化:每个模型使用Optuna进行30次试验
  • GPU支持:所有提升模型均支持自动检测

性能指标

  • 平均绝对误差(MAE):121.71美元/平方米
  • 中位数绝对百分比误差(MedAPE):5.49%
  • 决定系数(R²):0.76

Kaggle笔记本

完整笔记本链接:https://www.kaggle.com/code/muraraimbekov/bishkek-real-estate-price-prediction-v3

快速开始

python from datasets import load_dataset

dataset = load_dataset("raimbekovm/bishkek-real-estate") df = dataset[train].to_pandas()

价格统计

print(f"Median price: ${df[price_usd].median():,.0f}") print(f"Median price/m2: ${df[price_per_m2_usd].median():,.0f}")

数据集创建

数据来源

  • 网站:house.kg
  • 时间段:2025年12月至2026年1月
  • 地点:吉尔吉斯斯坦比什凯克

数据处理

  • 移除重复列表(移除了1,131个重复项)
  • 描述中的电话号码已匿名化
  • 坐标已验证
  • 使用UTF-8编码

注意事项

偏差

  • 仅包含来自house.kg平台的列表
  • 价格为要价,非最终销售价格
  • 仅关注城市(仅比什凯克市)

隐私

  • 描述中的电话号码已移除
  • 不包含个人卖家信息

引用

bibtex @dataset{bishkek_real_estate_2025, title={Bishkek Real Estate Dataset}, author={raimbekovm}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/raimbekovm/bishkek-real-estate} }

许可证

本数据集根据CC-BY-4.0许可证发布:https://creativecommons.org/licenses/by/4.0/

联系

如有问题,请在数据集仓库中提交问题。

搜集汇总
数据集介绍
main_image_url
构建方式
在房地产数据科学领域,获取新兴市场的结构化信息尤为关键。该数据集通过系统化网络爬虫技术,从吉尔吉斯斯坦最大的房地产平台house.kg采集了2025年12月至2026年1月期间的8821条活跃房源列表。构建过程涵盖了数据清洗、去重以及隐私保护处理,移除了1131条重复记录,并对描述文本中的电话号码进行了匿名化处理,确保了数据的唯一性与合规性。坐标信息经过验证,最终以UTF-8编码整合成包含39个字段的表格数据,并配套下载了超过64000张房产图片,形成了涵盖文本、数值与图像的多模态数据资源。
使用方法
该数据集适用于多元化的机器学习任务与研究场景。研究者可利用其进行回归分析,构建房价或每平方米单价预测模型;也可用于分类任务,如根据房屋特征或图片进行条件等级分类。在应用层面,支持开发多模态房产搜索与推荐系统,或结合计算机视觉技术对房屋内外景图片进行自动分类。数据加载便捷,通过Hugging Face的`datasets`库即可直接获取并转换为Pandas DataFrame进行分析。随附的完整训练笔记本提供了从特征工程到集成模型训练的端到端范例,为快速开展实证研究提供了可靠起点。
背景与挑战
背景概述
在房地产数据分析领域,针对新兴市场的研究长期面临公开数据稀缺的困境。Bishkek Real Estate Dataset 由研究人员 raimbekovm 于2025年创建并发布,是首个公开的中亚地区房地产数据集。该数据集聚焦吉尔吉斯斯坦首都比什凯克的公寓挂牌信息,核心研究问题在于揭示这一典型新兴市场的房价形成机制与空间分布规律。通过整合结构化表格数据与海量房产图像,该数据集为跨学科的房地产经济学、城市研究与多模态机器学习提供了宝贵资源,有望推动对中亚城市住房市场的量化理解与预测模型的发展。
当前挑战
该数据集旨在解决新兴市场房地产价格预测这一复杂问题,其核心挑战在于市场透明度低、非价格特征(如建筑质量、邻里环境)影响权重难以量化,以及俄语和吉尔吉斯语描述文本的语义理解。在构建过程中,挑战主要源于数据采集与整合:从单一平台(house.kg)爬取的数据存在选择偏差,无法完全代表整体市场;大量特征字段存在高缺失率(如厨房面积缺失率达87%),增加了数据清洗与插补的难度;同时,将64,000余张非结构化图像与结构化表格数据进行有效对齐与多模态融合,亦构成了显著的技术障碍。
常用场景
经典使用场景
在房地产经济学与机器学习交叉领域,Bishkek Real Estate Dataset为研究者提供了一个经典的多模态分析平台。该数据集整合了结构化表格数据与海量房产图像,使得开发房价预测模型成为其核心应用。通过融合房屋面积、楼层、建筑年代等39个特征变量,结合地理坐标与周边兴趣点距离,研究者能够构建精准的回归模型,以揭示比什凯克城市住房市场的定价机制。此类模型不仅服务于学术探索,也为区域房地产评估提供了可复现的计算框架。
解决学术问题
该数据集有效应对了新兴市场房地产数据稀缺的学术挑战,填补了中亚地区公开房产数据的空白。其多模态特性支持跨领域研究,例如通过计算机视觉技术自动识别房屋内饰与外部环境,或利用自然语言处理解析俄语与吉尔吉斯语的房产描述,从而深化对语言文化因素如何影响房产交易的理解。数据集提供的真实市场价格与丰富属性,使得学者能够实证检验城市经济学理论,如区位特征对房价的空间异质性影响,推动了发展中国家人居环境研究的定量化进程。
实际应用
在实际应用层面,该数据集为比什凯克乃至中亚地区的房地产市场参与者提供了决策支持工具。房地产平台可基于其构建智能推荐系统,为购房者匹配符合偏好的房源;金融机构可利用价格预测模型进行房产估值与风险评估,辅助抵押贷款审批;城市规划部门则可分析住房供给的空间分布与价格梯度,为城市发展与基础设施投资提供数据洞察。此外,多模态数据融合能力使得虚拟看房与自动化房产报告生成等创新应用成为可能,提升了行业效率。
数据集最近研究
最新研究方向
在房地产数据分析领域,针对新兴市场的多模态数据集正成为前沿探索的热点。Bishkek Real Estate Dataset作为首个公开的中亚地区房地产数据集,其融合了结构化表格与海量图像的多模态特性,为跨领域研究提供了独特资源。当前研究聚焦于利用该数据集开发集成学习模型,如XGBoost、LightGBM与CatBoost的混合架构,结合地理空间特征(如POI距离)与目标编码技术,以提升房价预测的精度与鲁棒性。同时,数据集中的俄语与吉尔吉斯语描述文本及室内外图像,正推动跨语言自然语言处理与计算机视觉在房地产搜索推荐系统中的融合应用,为理解中亚城市化进程中的住房市场动态提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作