flipfinder-usa

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/dant555/flipfinder-usa

下载链接

链接失效反馈

官方服务：

资源简介：

FlipFinder USA 数据集是一个专注于美国房地产投资机会的筛选工具，基于 Zillow 的原始数据经过清洗和特征工程处理而成。数据集包含 19,877 条记录和 14 个特征，旨在识别相对于当地市场被低估的房产（即潜在的翻新转售投资机会）。数据集的关键特征包括房产的地理位置（州、城市、邮编）、价格、面积、卧室和浴室数量、房产类型等。目标变量 'is_good_flip' 是一个二元标签，用于标记是否为良好的翻新投资机会。数据集经过严格的数据清洗和验证，包括处理缺失值、恢复邮编前导零、验证地理坐标等。此外，数据集还包含多个探索性可视化分析，揭示了地理分布、价格分布、房产类型与翻新机会之间的关系。数据集的局限性包括仅包含挂牌价格而非最终销售价格、夏威夷未包含在内等。

创建时间：

2026-04-01

原始信息汇总

FlipFinder USA 数据集概述

数据集基本信息

数据集名称: FlipFinder USA
作者: Dan
许可证: CC BY 4.0
来源: 基于Kaggle数据集“United States House Listings: Zillow Extract 2023”（https://www.kaggle.com/datasets/febinphilips/us-house-listings-2023）
目标: 识别美国各地相对于其本地市场被低估的房地产投资机会（适合“买入-翻新-卖出”策略的房产）。

数据内容与结构

原始数据规模: 超过24,000行，16个特征。
清洗后数据规模: 约19,877行，14个特征（11个原始特征 + 3个新特征）。
数据类型: 数值型表格数据。
数据文件: flipfinder_usa_cleaned.csv（训练集）。
特征列表:
- State: 字符串，美国州缩写（如CA, NY, TX）。
- City: 字符串，房产所在城市。
- Zipcode: 字符串，5位美国邮政编码。
- Price: 整型，房产标价（美元）。
- Area: 浮点型，室内居住面积（平方英尺）。
- PPSq: 浮点型，每平方英尺价格（Price / Area）。
- Bedroom: 整型，卧室数量。
- Bathroom: 浮点型，浴室数量（包括半卫）。
- bed_bath_ratio: 浮点型，卧室与浴室比例。
- ConvertedLot: 浮点型，地块大小（英亩）。
- property_type: 字符串，基于面积的房产类型分类（Condo/Small Property, Townhouse, Small Family Home, Large Family Home）。
- is_good_flip: 整型，二元目标变量（1 = 好的翻新机会，0 = 不是好的翻新机会）。
- Latitude: 浮点型，地理纬度坐标。
- Longitude: 浮点型，地理经度坐标。

目标变量构建

数据集本身无内置分类目标，因此构建了二元标签 is_good_flip。

定义方法:
1. 计算每个房产的每平方英尺价格（PPSq）。
2. 按5位邮政编码 + 卧室数量分组，计算本地市场中位数（要求每组至少5个房产）。
3. 若分组样本量不足，则回退至仅按5位邮政编码分组。
4. 若仍不足，则回退至按3位邮政编码前缀分组。
5. 若房产的PPSq低于其本地中位数15%或以上，则标记为1（好的翻新机会），否则标记为0。
结果: 27.3%的房产被标记为好的翻新机会。

数据清洗与处理

删除列: 删除了缺失值过多的列（MarketEstimate, RentEstimate）和冗余列（LotArea, LotUnit, Street）。
删除行: 删除了8个关键列（Price, Area, PPSq, Bedroom, Bathroom, Zipcode, Latitude, Longitude）中存在缺失值的行。
数据修复: 恢复了东海岸邮政编码因浮点转换丢失的前导零（如02886）。
地理验证: 确保所有坐标位于美国地理边界内（包括阿拉斯加）。
应用领域特定过滤器以聚焦于现实的翻新候选房产：
- 价格: $50,000 - $2,000,000
- 面积: 400 - 5,000 平方英尺
- 每平方英尺价格: $10 - $2,000
- 卧室: 1 - 8
- 浴室: 1 - 5
- 卧室/浴室比例: ≤ 4:1
- 地块大小: 0.01 - 5 英亩

特征工程

property_type: 根据居住面积创建的分类变量，将房产分为四类：Condo/Small Property（800平方英尺以下）、Townhouse（800-1,500平方英尺）、Small Family Home（1,500-2,500平方英尺）、Large Family Home（2,500平方英尺以上）。
is_good_flip: 如上述定义的二元目标变量。
数据变换: 对右偏的Price和PPSq应用了对数变换（np.log1p），生成了log_Price和log_PPSq列供未来建模使用。

关键洞察摘要

地理是最强驱动因素: 翻新机会率因州而异，缅因州最高（37.6%），内华达州最低（17.5%）。东北部和太平洋西北部地区表现优于阳光地带。微观市场层面，某些邮政编码（如58554）的翻新机会率高达47.1%。
房产大小和类型影响翻新率: 大型家庭住宅（>2,500平方英尺）的翻新机会率最高（37.2%），是小型公寓/房产（13.0%）的近三倍。
布局效率是独立信号: 卧室与浴室比例高于3.0的密集布局房产，翻新机会率达到53.7%，接近数据集平均值的两倍。
翻新信号基于阈值，非线性: 目标变量is_good_flip由价格、面积和本地市场背景组合驱动，与任何单一特征无强线性相关。好的翻新机会集中在价格约237,000美元、面积约2,000平方英尺的狭窄窗口。
价格是最强的个体区分因素: 好的翻新房产中位价格为239,900美元，而非翻新房产为365,000美元，差异显著。
地块大小不是预测因子: 好的翻新与非翻新房产在地块大小上分布几乎无差异，中位数均为0.25英亩。

局限性

数据为挂牌价格，非最终售价。
夏威夷未包含在此数据集中。
许多城市/公寓房产的地块大小缺失。
Zestimate缺失值过多，无法作为基准。
数据为2023年静态快照，市场条件可能已变化。
本地中位数基于数据集样本，非完整的Zillow数据库。

仓库文件

flipfinder_usa_cleaned.csv: 可供分析的清洗后数据集。
Dans_Assignment_1_EDA_&_Dataset.ipynb: 包含所有代码和解释的完整EDA笔记本。
Plots/: 本README中使用的可视化图像目录。

搜集汇总

数据集介绍

构建方式

在房地产投资分析领域，数据集的构建往往依赖于对原始数据的深度清洗与特征工程。FlipFinder USA数据集源自2023年美国Zillow房产列表的公开数据，原始数据包含超过24,000条记录和16个特征。通过系统性的数据清洗流程，作者移除了缺失值过多的列（如市场估价和租金估价），并对关键字段（如价格、面积、邮政编码等）的缺失行进行了剔除。为确保数据的现实意义，应用了七项基于领域知识的过滤条件，限定了价格、面积、卧室数量等变量的合理范围，最终得到约19,877条清洁记录。此外，通过计算每平方英尺价格并依据邮政编码和卧室数量分组，构建了核心的二分类目标变量`is_good_flip`，用于标识相对于本地市场中位数价格低估至少15%的潜在翻修投资机会。

特点

该数据集的核心特点在于其专注于房地产翻修投资机会的识别，具有明确的应用导向。数据集包含14个特征，涵盖地理位置（州、城市、邮政编码、经纬度）、房产属性（价格、面积、卧室与卫生间数量、房产类型）及衍生指标（每平方英尺价格、卧室卫生间比例）。其中，工程化的目标变量`is_good_flip`是数据集的灵魂，它并非原始标注，而是通过基于邮政编码层级的本地市场比较动态生成，使得数据能够直接服务于二分类机器学习模型。数据经过严格的异常值处理与对数变换，分布更为集中，同时保留了全美49个州的广泛地理覆盖，为研究地域性市场差异提供了基础。可视化分析进一步揭示，优质投资机会在价格、面积及房产类型上呈现清晰的聚类模式。

使用方法

该数据集主要适用于房地产投资分析、机器学习模型开发及空间经济研究。使用者可直接加载提供的CSV文件，利用`is_good_flip`作为监督学习的目标变量，构建分类模型以预测房产是否属于潜在翻修机会。特征中的经纬度坐标支持地理空间分析与可视化，例如绘制投资机会的地理分布热图。在进行建模前，建议参考作者提供的Jupyter Notebook进行探索性数据分析，以理解特征间的相关性与分布规律。数据已清洗完毕，可直接用于训练，但需注意其基于2023年市场快照的时效性，且仅反映挂牌价格而非最终交易价格。对于进阶研究，可进一步工程化特征，或结合外部宏观经济数据以增强预测效能。

背景与挑战

背景概述

FlipFinder USA数据集由研究人员Dan于2025年构建，旨在将通用的Zillow房地产列表数据转化为专注于识别美国境内被低估房产的投资筛选工具。该数据集源于2023年的美国房屋挂牌信息，通过特征工程创建了二元目标变量`is_good_flip`，以标记那些相对于当地市场中位数价格显著低估的房产，从而为翻新转售投资策略提供数据支持。其核心研究问题聚焦于如何从海量房地产数据中自动识别潜在的高回报投资机会，对房地产投资分析、机器学习在金融领域的应用以及空间数据分析等领域具有重要参考价值。

当前挑战

该数据集致力于解决房地产投资中翻新机会识别的分类问题，其核心挑战在于如何从高噪声、多变量的市场数据中准确捕捉局部市场的价格异常信号。由于房地产价格受地理位置、房屋特征和市场动态等多重因素非线性交互影响，构建一个稳健的分类模型面临特征交互复杂性与空间异质性的双重考验。在数据构建过程中，主要挑战包括原始数据中关键字段（如Zestimate）大量缺失导致的基准价格信息不可靠，需要设计基于邮政编码和卧室数量的分层中位数计算作为替代方案；同时，数据清洗需应对价格、面积等数值特征的极端异常值，以及地理坐标、邮政编码格式不一致等问题，并通过领域知识制定严格的过滤规则以确保数据质量与业务合理性。

常用场景

经典使用场景

在房地产投资分析领域，FlipFinder-USA数据集为识别美国本土的房产翻新投资机会提供了关键的数据支撑。该数据集通过精心设计的二元目标变量is_good_flip，能够有效筛选出相对于当地市场被低估的房产，这些房产通常具备通过购买、翻新、出售策略获利的潜力。其经典使用场景集中于机器学习模型的训练与评估，特别是分类算法如逻辑回归、随机森林或梯度提升树，旨在根据房产的地理位置、价格、面积及卧室浴室比例等多维特征，精准预测其是否属于优质翻新标的。

解决学术问题

该数据集主要解决了房地产经济学与计算社会科学交叉领域中的若干核心问题。它通过构建基于邮政编码和卧室数量的本地化价格中位数基准，为量化房产“低估”程度提供了可操作的定义，从而将主观的投资直觉转化为客观的数据驱动标准。这有助于学术研究深入探讨微观市场异质性、价格偏离的成因以及翻新投资回报的影响因素。其意义在于推动了房地产数据分析从宏观趋势描述向微观机会识别的范式转变，为区域经济学和投资策略的实证研究提供了高质量、细粒度的基准数据。

衍生相关工作

围绕FlipFinder-USA数据集的核心思想与方法，衍生出了一系列相关的经典研究工作。例如，后续研究扩展了其本地化基准的计算方法，引入了更复杂的空间统计模型或考虑了时间序列动态。另有工作聚焦于特征工程的深化，尝试融入街景图像、学区评分或社区犯罪率等非结构化数据，以提升预测模型的解释力与泛化性能。此外，该数据集所确立的“基于本地相对价格偏离识别机会”的框架，也被借鉴并应用于其他资产类别（如商业地产、土地）的价值发现研究之中，推动了跨领域的投资分析智能化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集