vietnam-real-estates
收藏Hugging Face2026-04-14 更新2026-04-15 收录
下载链接:
https://huggingface.co/datasets/tinixai/vietnam-real-estates
下载链接
链接失效反馈官方服务:
资源简介:
Tinix越南房地产列表数据集(2025-2026)是一个大规模、经过筛选的越南房地产数据集,包含从2025年6月至2026年3月期间收集的3,500,744条房产销售/租赁记录。数据集由TiniX AI整理发布,旨在为房地产市场研究、房价预测模型构建和越南市场趋势分析提供资源。数据集覆盖越南63个省/市,包含详细的房产信息,如房产类型、地理位置、价格、面积、房间数量等。数据以表格形式存储,适用于回归任务、地理空间市场分析、时间趋势分析等应用场景。数据集语言为越南语,采用CC BY-NC 4.0许可协议。
创建时间:
2026-04-04
原始信息汇总
数据集概述:Tinix Vietnam Real Estate Listings (2025-2026)
基本信息
- 数据集名称:Tinix Vietnam Real Estate Listings 2025-2026
- 提供方:TiniX AI
- 语言:越南语 (Vietnamese / Tiếng Việt)
- 许可协议:CC BY-NC 4.0 (Creative Commons Attribution Non-Commercial 4.0 International)
- 任务类别:表格回归 (tabular-regression)
- 标签:real-estate, vietnam, property, geospatial, price-prediction, tabular, vietnamese, "Tiếng Việt"
数据规模与时间范围
- 总记录数:3,500,744 条
- 数据时间范围:2025年6月1日至2026年3月31日
- 数据分片:10个分片 (Parquet格式)
- 地理坐标系:WGS 84 (EPSG:4326)
地理覆盖范围
- 覆盖区域:越南全部63个省/市
- 主要市场(按挂牌量排名):
- 胡志明市 (Hồ Chí Minh): 1,357,526 条
- 河内 (Hà Nội): 1,140,542 条
- 岘港 (Đà Nẵng): 185,973 条
- 平阳省 (Bình Dương): 150,377 条
- 庆和省 (Khánh Hòa): 98,377 条
- 海防市 (Hải Phòng): 72,788 条
- 兴安省 (Hưng Yên): 65,223 条
- 同奈省 (Đồng Nai): 59,543 条
- 隆安省 (Long An): 47,125 条
- 巴地头顿省 (Bà Rịa - Vũng Tàu): 45,885 条
房产类型
数据集包含以下越南市场常见的房产类型:
- Nhà:各类私人住宅
- Căn hộ chung cư:公寓/共管公寓
- Đất:住宅或商业用地
- Biệt thự / Nhà liền kề:别墅和联排别墅
- Nhà mặt phố:临街房屋
- Shophouse:商业店屋
数据模式(Schema)
| 列名 | 数据类型 | 描述 |
|---|---|---|
name |
string |
挂牌标题(已去除HTML,电话号码已隐去) |
description |
string |
完整的挂牌描述(已去除HTML,电话号码已隐去) |
property_type_name |
string |
房产类别(例如:Căn hộ chung cư, Nhà, Đất, ...) |
province_name |
string |
省/市名称(63个省) |
district_name |
string |
区/县名称 |
ward_name |
string |
坊/乡名称 |
street_name |
string |
街道名称 |
project_name |
string |
房地产开发项目名称(如适用) |
price |
float64 |
以越南盾标价的挂牌价格。若未披露则为null。 |
area |
float64 |
总楼层/土地面积,单位为平方米 |
floor_count |
float64 |
建筑楼层数 |
frontage_width |
float64 |
临街面宽度,单位为米 |
house_depth |
float64 |
房产深度,单位为米 |
road_width |
float64 |
房产前道路宽度,单位为米 |
bedroom_count |
float64 |
卧室数量 |
bathroom_count |
float64 |
浴室数量 |
house_direction |
string |
主要朝向(东、西、南、北、东北...) |
balcony_direction |
string |
阳台朝向 |
published_at |
string |
挂牌发布的ISO 8601日期时间 |
潜在应用场景
- 房地产价格预测:基于物理特征(面积、房间数等)和地理位置构建房地产定价模型。
- 地理空间市场分析:分析挂牌密度、价格热度和区域市场趋势。
- 时间趋势分析:跟踪月度挂牌量和价格水平的波动。
- 越南语房地产文本自然语言处理:在房地产描述文本上微调或预训练越南语语言模型。
- 市场研究与细分:提供关于越南2025年房地产市场结构和价格分层的洞察。
使用许可与引用
- 许可:本数据集采用知识共享署名-非商业性使用 4.0 国际许可协议发布。
- ✅ 允许免费用于学术研究和教育。
- ❌ 商业用途需要获得TiniX AI的明确书面许可。
- 引用格式: bibtex @dataset{tinix_vietnam_real_estate_2025_2026, author = {TiniX AI}, title = {Tinix Vietnam Real Estate Listings 2025-2026}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/tinixai/vietnam-real-estates} }
搜集汇总
数据集介绍

构建方式
在房地产数据科学领域,构建一个高质量的数据集需要严谨的采集与处理流程。该数据集由TiniX AI通过系统化方法构建,其核心数据源为2025年6月至2026年3月期间越南房地产市场的在线挂牌信息。在数据采集后,研究团队实施了严格的数据清洗与过滤机制,特别移除了“临街房屋”和“巷内房屋”等特定物业类型,以确保数据在特定研究场景下的同质性与代表性。最终,经过处理的数据库包含了超过350万条有效记录,并以分片的Parquet格式进行组织,为大规模分析提供了高效的数据结构支持。
特点
该数据集在房地产分析领域展现出多维度、高精度的显著特征。其地理覆盖范围极为广泛,完整涵盖了越南全部63个省市,其中胡志明市与河内市的记录最为密集,为区域市场对比研究提供了坚实基础。数据模式设计精细,不仅包含价格、面积、卧室与卫生间数量等核心物理属性,还纳入了楼层数、面宽、进深、道路宽度乃至房屋与阳台朝向等丰富的空间与结构特征。此外,每条记录均附有经过脱敏处理的文本描述与发布时间戳,使得数据集能够同时支持基于表格的回归预测、时空趋势分析以及越南语自然语言处理等多模态研究任务。
使用方法
利用该数据集进行实证研究,研究者可通过Hugging Face的`datasets`库便捷地加载完整数据。典型应用流程始于数据加载与转换为Pandas DataFrame,随后可依据研究目标执行灵活的数据筛选与聚合操作。例如,可通过省份、物业类型及价格非空等条件筛选特定子集,用于构建房价预测模型;亦可按地理区域或时间维度进行分组,以分析市场价格的时空分布规律与波动趋势。数据集中丰富的文本字段为训练或微调越南语语言模型提供了高质量的领域语料,而全面的地理编码信息则使得与外部地理空间数据进行融合分析成为可能,从而深入探究区位因素对房地产价值的影响。
背景与挑战
背景概述
房地产价格预测作为经济学与数据科学交叉领域的重要课题,其研究深度依赖于高质量、大规模的区域性数据集。越南房地产市场近年来发展迅速,但长期以来缺乏公开、系统的交易与挂牌数据,制约了定量分析与模型构建的进展。在此背景下,TiniX AI机构于2026年发布了“vietnam-real-estates”数据集,该数据集系统采集了2025年6月至2026年3月期间超过350万条越南全国范围内的房产挂牌信息。该数据集的构建旨在为学术界和业界提供一个全面的资源,以支持对越南房地产市场进行价格预测、时空趋势分析以及基于越南语文本的自然语言处理研究,从而填补了该领域在精细化、结构化数据方面的空白。
当前挑战
该数据集致力于解决房地产价格预测这一核心领域问题,其面临的挑战在于房地产价格受到地理位置、房屋物理属性、市场情绪以及文本描述等多维度复杂因素的共同影响,构建能够精准捕捉这些非线性关系的预测模型具有显著难度。在数据集构建过程中,挑战同样突出:首先,原始数据来自网络爬取,需处理大量非结构化文本、去除HTML标签与敏感信息(如电话号码),并确保地址与空间坐标的准确映射;其次,市场挂牌价格存在虚报、缺失或异常值,需要进行严格的数据清洗与验证;最后,如何对越南语房产描述进行有效的特征提取,以服务于下游的NLP任务,也是构建过程中的关键挑战。
常用场景
经典使用场景
在房地产经济学与机器学习交叉领域,该数据集为构建越南不动产价格预测模型提供了核心数据基础。研究者可依据物业的物理属性(如面积、楼层数、卧室数量)与地理位置信息(省、区、街道),训练回归模型以精准估算房产的市场价值。此类工作不仅验证了特征工程与模型架构的有效性,也深化了对区域房价形成机制的理解。
解决学术问题
该数据集有效应对了新兴市场房地产数据稀缺与质量参差的学术挑战,为定量研究提供了大规模、结构化的观测样本。它支持学者深入探究房价的空间异质性、时间序列波动以及微观属性对价值的边际贡献,从而推动城市经济学、区域科学和计算社会科学领域关于市场效率、空间不平等及资产定价理论的实证研究。
衍生相关工作
围绕该数据集,已衍生出多项经典研究方向,包括融合地理空间信息的图神经网络房价预测模型、基于自然语言处理的越南语房产描述文本分析与情感挖掘、以及结合时间戳的房地产市场周期性波动与事件影响分析。这些工作显著提升了领域内对复杂、高维房地产数据的建模能力与应用广度。
以上内容由遇见数据集搜集并总结生成



