seoul-apartment-trades
收藏Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/kpubdata/seoul-apartment-trades
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含韩国首尔2020年1月至2024年12月期间的真实公寓销售交易记录,覆盖首尔全部25个行政区。数据来源于韩国国土交通部(MOLIT)通过data.go.kr公共数据API提供。数据集采用表格形式,包含233,565条记录和14个特征字段,适用于回归分析等任务。主要特征包括:行政区代码、邻里名称(韩文)、公寓名称(韩文)、专有面积(平方米)、楼层、建造年份、交易日期(年/月/日)、交易金额(以万韩元为单位的目标变量)、地号等。文本值为韩文,但列名为英文以便全球使用。数据集特别适合用于房地产价格分析、时间序列预测和区域经济研究等应用场景。数据遵循CC-BY-4.0许可,原始数据来自韩国政府开放数据门户。
创建时间:
2026-04-26
原始信息汇总
数据集概述
数据名称:Seoul Apartment Trades (서울 아파트 매매 실거래가)
数据描述:该数据集记录了韩国首尔市全部 25 个区(gu)从 2020 年 1 月至 2024 年 12 月(共 60 个月)的真实公寓交易记录。数据来源于韩国国土交通部(MOLIT)通过 data.go.kr 公共数据 API 提供的信息。文本字段(如 neighborhood、apartment_name)使用韩文,列名使用英文以方便全球用户。回归任务的目标变量为 deal_amount_10k_krw(交易价格,单位为万韩元)。
数据集规模:
- 记录总数:233,565 条
- 特征数量:14 个
数据来源:
- 原始数据源:https://www.data.go.kr/data/15126468/openapi.do
- HuggingFace 仓库:https://huggingface.co/datasets/kpubdata/seoul-apartment-trades
许可证:CC-BY-4.0
特征说明
| 特征名称 | 描述 |
|---|---|
district_code |
5 位行政区域代码(시군구코드) |
neighborhood |
法定洞名称(韩文,如 역삼동) |
apartment_name |
公寓小区名称(韩文) |
exclusive_area_m2 |
专用面积(平方米) |
floor |
交易楼层 |
build_year |
建筑年份 |
deal_year |
交易年份 |
deal_month |
交易月份 |
deal_day |
交易日期 |
deal_amount_10k_krw |
交易价格(万韩元,目标变量) |
lot_number |
地号/土地地块编号 |
deal_date |
交易日期(YYYY-MM-DD 格式) |
registration_date |
登记日期(较旧记录可能为空) |
apartment_seq |
公寓唯一标识符 |
统计信息
| 特征 | 均值 | 标准差 | 最小值 | 最大值 |
|---|---|---|---|---|
exclusive_area_m2 |
74.93 | 30.91 | 10.156 | 317.36 |
floor |
9.41 | 6.34 | -3 | 68 |
build_year |
2002.16 | 10.75 | 1961 | 2025 |
deal_year |
2021.74 | 1.64 | 2020 | 2024 |
deal_month |
6.25 | 3.16 | 1 | 12 |
deal_day |
15.84 | 8.67 | 1 | 31 |
deal_amount_10k_krw |
100,792.15 | 76,720.70 | 6000 | 2,500,000 |
使用示例
python from datasets import load_dataset
ds = load_dataset("kpubdata/seoul-apartment-trades") df = ds["train"].to_pandas() print(df.head())
样本数据
| district_code | neighborhood | apartment_name | exclusive_area_m2 | floor | build_year | deal_year | deal_month | deal_day | deal_amount_10k_krw | lot_number | registration_date | apartment_seq | deal_date |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 11110 | 창신동 | 창신쌍용1 | 54.7 | 5 | 1992 | 2020 | 1 | 3 | 31000 | 702 | None | 11110-37 | 2020-01-03 |
| 11110 | 평창동 | 삼성 | 84.93 | 6 | 1998 | 2020 | 1 | 13 | 53000 | 596 | None | 11110-73 | 2020-01-13 |
| 11110 | 사직동 | 광화문스페이스본(106동) | 163.33 | 2 | 2008 | 2020 | 1 | 2 | 162000 | 9-1 | None | 11110-2204 | 2020-01-02 |
| 11110 | 명륜3가 | 한빛 | 59.73 | 4 | 1999 | 2020 | 1 | 10 | 34500 | 1-30 | None | 11110-27 | 2020-01-10 |
| 11110 | 창신동 | 창신쌍용1 | 106.62 | 1 | 1992 | 2020 | 1 | 19 | 68500 | 702 | None | 11110-37 | 2020-01-19 |
法律与归属
本数据集使用韩国国土交通部发布的“아파트매매 실거래 상세 자료”(公寓交易详细数据),依据韩国开放政府许可类型 1(공공누리 제1유형)提供。具体归属信息详见原始页面。
搜集汇总
数据集介绍
构建方式
该数据集源自韩国国土交通部通过data.go.kr公共数据API发布的公寓实际交易记录,覆盖首尔市全部25个行政区,时间跨度从2020年1月至2024年12月共计60个月。数据采集以官方公开的实时交易明细为基础,经结构化处理后生成包含14个特征字段的表格数据,其中交易价格以万韩元为单位作为回归任务的目标变量。所有文本字段如小区名称和法定洞名称均保留韩文原貌,列名则采用英文以增强跨语言可访问性,同时提供行政区代码映射表便于分区筛选。
特点
该数据集以233,565条记录涵盖了首尔公寓交易的全面信息,特征维度包括专有面积、楼层、建筑年份、交易时间及价格等关键属性。其独特的时空连续性体现在按年月日精细划分的交易时间戳上,而面积与价格等连续变量的完整统计分布为回归分析提供了坚实基础。此外,数据集还包含了注册日期与公寓序列号等辅助字段,支持更深入的交易溯源性研究,且所有数据均采用开放政府许可协议发布,确保了学术与商业应用的合法性。
使用方法
该数据集专为表格回归任务设计,可直接通过HuggingFace Datasets库加载,仅需一条Python命令便能将数据读取为Pandas DataFrame格式进行后续分析。用户可聚焦于目标变量'deal_amount_10k_krw'进行价格预测建模,利用'exclusive_area_m2'、'floor'、'build_year'等数值特征与行政区代码等分类特征构建特征工程。对于需要按区域细分的场景,可借助'district_code'映射表过滤特定行政区的子集,而交易日期字段则支持按时间序列划分训练集与测试集,灵活适配各类监督学习流程。
背景与挑战
背景概述
在房地产经济学与城市计算交叉领域,精准预测房产交易价格始终是核心课题,尤其对于首尔这样高度城市化且房价波动剧烈的国际大都市而言。该数据集由kpubdata团队于2024年构建,数据来源于韩国国土交通部通过data.go.kr开放的公共API,收录了2020年1月至2024年12月间首尔市全部25个行政区的公寓实际交易记录,共计233,565条,涵盖14项特征。其核心研究问题聚焦于利用结构化时序数据开展回归任务,以‘deal_amount_10k_krw’作为目标变量,旨在为区域房价建模、经济政策评估及房地产市场的量化分析提供标准化的公开基准。该数据集以CC-BY-4.0许可发布,兼具韩文文本字段与英文列名,显著提升了跨国研究的可访问性,已成为韩国房地产数据科学领域的重要资源。
当前挑战
该数据集所解决的领域问题首当其冲是房价预测中的非线性时空依赖与区域异质性——首尔各区经济发展、基础设施与政策干预差异巨大,单一全局模型难以准确捕捉局部价格动态。具体挑战包括:1)特征空间中‘exclusive_area_m2’、‘floor’等物理属性与‘build_year’等时序信息交互复杂,且存在-3层等异常楼层与250亿韩元等极端高价记录,需稳健预处理与异常值处理;2)文本字段(如‘neighborhood’、‘apartment_name’)以韩文呈现,缺乏统一编码,需跨语言分词与语义对齐;3)部分‘registration_date’字段存在缺失值,时间序列中可能存在非等间隔或季节性缺失,影响时序建模的连续性;4)数据分布高度右偏,直接回归易受长尾扰动,需设计适当的变换策略以提升模型泛化能力。
常用场景
经典使用场景
在房地产经济学与城市数据科学的交叉领域,首尔公寓交易数据集(Seoul Apartment Trades)为研究者提供了2020至2024年间横跨首尔全部25个行政区的真实交易记录。其核心应用场景聚焦于构建基于多元特征的住房价格回归模型,通过利用专有面积、楼层、建筑年限和交易时间等14维结构化特征,精准预测以万韩元为单位的成交价格。该数据集凭借60个月的时序跨度与超23万条样本,为时间序列分析与空间计量经济学的融合研究奠定了坚实基础,尤其适用于考察区域异质性对房价动态的差异化影响。
实际应用
在实际应用层面,该数据集已融入韩国房地产估值、税务评估与金融风控的决策支撑体系。银行与抵押贷款机构可基于历史交易模式构建自动化估价引擎,提升贷款审批中抵押品价值评估的精确度。政府机构如国土交通部利用该数据监测区域市场热度,识别价格泡沫信号,并优化住房供应规划。不动产科技初创公司则将其嵌入智能推荐系统,为购房者提供基于同类交易的对标分析,助力透明化议价。此外,数据集的CC-BY-4.0许可协议降低了商业再开发门槛,催生了面向投资者与经纪人的定制化分析工具。
衍生相关工作
围绕该数据集已衍生出一系列具有影响力的学术与产业成果。在学术界,研究者基于其构建了首尔市房价指数的时空降维模型,并与宏观经济指标联合推演利率变动对交易量的传导效应。工业界则涌现出多个开源基准任务,例如开发针对韩国韩文地址编码的地址标准化流水线,以及将公寓序列号(apartment_seq)与建筑能耗数据库关联的跨域图谱。与此同时,该数据集被广泛应用于图神经网络(GNN)研究中,通过构建社区级邻近图探索房价的空间自相关性。韩国公共数据门户亦将其作为范例,推动跨部门数据融合标准化的政策制定。
以上内容由遇见数据集搜集并总结生成



