Historical Appraisals OCR-ML
收藏arXiv2025-05-30 更新2025-06-03 收录
下载链接:
https://huggingface.co/datasets/eruka-cmu-housing/historical-appraisals-ocr-ml
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于俄亥俄州汉密尔顿县的历史房产评估卡片,由Carnegie Mellon University创建。数据集包含1933年的房产评估值,涵盖了超过59,378个房产。数据集的创建过程涉及两个步骤:首先,使用OCR技术从扫描的文档中提取历史价值;其次,基于回归模型预测所有房产的价值。该数据集旨在帮助学者、社区活动家和决策者更好地分析和理解美国20世纪30年代住房政策对种族财富差距的影响。
This dataset is sourced from historical property assessment cards in Hamilton County, Ohio, and was created by Carnegie Mellon University. It contains property assessment values from 1933, covering over 59,378 properties. The dataset creation process involves two steps: first, extracting historical values from scanned documents using Optical Character Recognition (OCR) technology; second, predicting the values of all properties based on a regression model. This dataset aims to assist scholars, community activists, and policymakers in better analyzing and understanding the impact of U.S. housing policies in the 1930s on racial wealth gaps.
提供机构:
Carnegie Mellon University
创建时间:
2025-05-30
原始信息汇总
数字化历史房产估价与建筑特征数据集
数据集概述
- 许可证: Apache-2.0
- 标签: 住房, 房产, 估价, 建筑, 历史, 评估, OCR, 数字化
- 数据规模: 10K<n<100K
数据描述
Hamilton County (俄亥俄州汉密尔顿县)
- 数据来源: 主要来自辛辛那提地区
- 数据文件:
property_cards/: 历史房产估价卡扫描图像的压缩包,文件名包含地块标识符parcelid。hand_annotations_single_cell_hamilton.csv: 12,269张卡片的随机样本人工标注,记录1933年的"建筑"价值。ocr_predictions_single_cell_hamilton.csv: OCR管道预测的1933年"建筑"价值,包含模型置信度分数。building_features_hamilton.csv: 2023年地块及建筑详细信息(如房屋面积、特征等)。- 数据字典: Google Sheets链接
- SQL代码: GitHub文件夹
Franklin County (俄亥俄州富兰克林县)
- 数据来源: 主要来自哥伦布地区
- 数据文件:
property_cards/: 历史房产估价卡扫描图像的压缩包,文件名包含地块标识符parcelid。hand_annotations_single_cell_hamilton.csv: 672张卡片的随机样本人工标注,记录1920年或1931年的"建筑"价值。building_features_hamilton.csv: 2023年地块及建筑详细信息(如房屋面积、特征等)。- 数据字典: Google Sheets链接
- SQL代码: GitHub文件
综合OCR数据
- 用途: 用于训练和评估微调的TrOCR模型
- 数据文件:
images/: 裁剪的单元格图像,命名格式为parcelid_cellnumber_label。labels.csv: 包含parcelid和value(人工标注的字段值)两列。
相关链接
- GitHub仓库: 链接
数据集联系人
搜集汇总
数据集介绍

构建方式
Historical Appraisals OCR-ML数据集通过结合光学字符识别(OCR)和机器学习技术,从历史房产评估卡片中提取数字化信息。研究团队首先手动标注了超过12,000处房产的评估卡片,用于训练和验证OCR模型。随后,采用两阶段方法——结合经典计算机视觉技术和基于深度学习的OCR——对额外的50,000处房产数据进行标注。对于无法应用OCR的情况(如扫描文档缺失),研究团队开发了基于建筑特征的回归模型,用于估算历史房产价值。
特点
该数据集的核心特点在于其多模态数据整合能力,既包含从扫描文档中提取的结构化表格数据,也涵盖通过回归模型生成的估算值。数据集特别关注1930年代美国住房政策实施前的房产评估记录,为研究种族财富差距提供了独特的历史基准。数据标注采用双重格式:全面标注格式包含土地、建筑和总价值的完整记录;单单元格格式则专注于建筑价值的首次评估记录,确保数据粒度灵活适配不同研究需求。
使用方法
研究者可通过两种路径使用该数据集:对于已扫描的档案,推荐采用基于ORB特征匹配的文档对齐流程和微调的TrOCR模型进行价值提取;对于未数字化档案,则适用预训练的随机森林回归模型,输入当代建筑特征数据即可输出历史价值估算。数据集特别设计支持跨县域泛化研究,用户可通过调整特征子集和分布标准化方法,将模型迁移至其他地区的历史房产分析。
背景与挑战
背景概述
Historical Appraisals OCR-ML数据集由斯坦福大学和卡内基梅隆大学的研究团队于2025年创建,旨在通过OCR和机器学习技术数字化历史房产评估记录,以量化1930年代美国住房政策对种族财富差距的影响。该数据集基于汉密尔顿县(俄亥俄州)的公开扫描文档,手动标注了超过12,000处房产的评估卡片,并结合计算机视觉和深度学习技术,进一步通过OCR标注了50,000处房产的数据。该数据集为研究历史住房政策的社会影响提供了重要工具,填补了相关领域的数据空白。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题的挑战:历史房产评估记录多为手写且以物理格式存储,难以进行大规模定量分析;2) 构建过程中的挑战:表格文档的语义理解困难,OCR技术在手写数字识别上准确率不足,且扫描文档的获取成本高昂。此外,回归模型在跨县推广时表现不佳,需进一步优化以适应不同地区的建筑特征差异。
常用场景
经典使用场景
Historical Appraisals OCR-ML数据集在社会科学研究中具有重要价值,尤其在分析历史住房政策对种族财富差距的影响方面。该数据集通过OCR技术和机器学习方法,将汉密尔顿县的历史房产评估记录数字化,为研究者提供了1930年代房产价值的详细数据。这些数据不仅揭示了联邦住房政策对房产价值的影响,还为量化这些政策的经济后果提供了可靠依据。
实际应用
在实际应用中,该数据集被政府机构、社区活动家和政策制定者用于评估历史住房政策对当代社区的影响。通过分析历史房产价值数据,这些机构能够制定更有针对性的政策来缓解历史不公造成的持续影响。此外,该数据集的方法论也被其他县区采用,用于数字化本地的历史房产记录。
衍生相关工作
基于该数据集,研究者开发了多种衍生工作,包括改进的OCR模型用于处理其他类型的历史文档,以及扩展的回归模型用于预测不同地区的历史房产价值。这些工作不仅提升了历史文档数字化的准确性,还为跨地区的历史政策比较研究提供了新的分析工具。
以上内容由遇见数据集搜集并总结生成



