five

historical-appraisals-ocr-ml

收藏
Hugging Face2025-04-21 更新2025-04-22 收录
下载链接:
https://huggingface.co/datasets/eruka-cmu-housing/historical-appraisals-ocr-ml
下载链接
链接失效反馈
官方服务:
资源简介:
数字化历史财产估值和建筑特征数据集,包含俄亥俄州汉密尔顿县和富兰克林县的财产信息。数据集由历史财产估值卡扫描图像、手工注释、OCR预测以及2023年的建筑特征数据组成,所有数据均通过土地地块标识符'parcelid'进行链接。
创建时间:
2025-04-16
搜集汇总
数据集介绍
main_image_url
构建方式
在房地产历史评估领域,该数据集通过多源异构数据融合构建而成。核心数据源自汉密尔顿县和富兰克林县评估机构提供的1930年代历史房产评估卡扫描图像,采用光学字符识别技术对卡片上的建筑价值信息进行数字化处理。研究团队对12,269张汉密尔顿县卡片和672张富兰克林县卡片进行了人工标注,形成基准数据集。同时整合了2023年两县审计部门提供的现代房产特征数据,通过土地地块标识符实现跨世纪数据关联,并利用SQL脚本完成数据清洗与转换。
特点
该数据集独特之处在于实现了历史评估数据与现代房产特征的时空对接。包含1933年建筑价值的手写/印刷体标注信息,以及OCR模型预测结果与置信度评分。现代房产特征维度丰富,涵盖建筑面积、结构特性等20余项指标,数据字典和清洗代码完全公开。数据集规模介于1万至10万条之间,地域覆盖俄亥俄州两大主要城市,时间跨度达90年,为研究长期房地产价值演变提供了珍贵素材。
使用方法
该数据集适用于历史文档OCR模型训练与验证,研究者可利用人工标注数据评估识别准确率。时空维度扩展的应用场景包括:通过配对历史评估值与现代特征数据,构建房产增值预测模型;分析建筑特征对长期价值的影响权重。使用前需参考GitHub仓库中的SQL脚本理解数据转换逻辑,结合数据字典解读特征含义。对于OCR研究,建议将hand_annotations作为金标准,对比ocr_predictions文件中的模型输出进行性能分析。
背景与挑战
背景概述
在历史建筑评估与房地产价值研究领域,数字化历史档案的稀缺性长期制约着纵向研究的深度。由Mihir Bhaskar和Jun Tao Luo等学者构建的historical-appraisals-ocr-ml数据集,通过光学字符识别技术对俄亥俄州汉密尔顿县和富兰克林县20世纪早期的房产评估卡片进行系统化处理,填补了该领域1930年代建筑价值基准数据的空白。该数据集创新性地将历史手写评估记录与当代不动产特征数据关联,为研究建筑价值演变、城市发展轨迹及其社会经济影响因素提供了跨世纪实证基础。其多模态数据融合方法,在历史文档数字化与房地产经济学交叉领域具有开创性意义。
当前挑战
该数据集构建面临双重技术挑战:在领域问题层面,历史手写体数字识别存在字形退化、墨水洇染等干扰因素,且早期评估卡片格式非标准化导致关键信息定位困难;在数据处理层面,需解决跨世纪不动产记录的地块标识符匹配难题,涉及行政区划变更、地块分割合并等复杂情形。此外,当代建筑特征数据的异构性要求开发定制化清洗流程,以确保1930年代评估值与2023年特征数据在时空维度上的可比性。光学字符识别模型在低质量扫描图像上的置信度阈值设定,亦直接影响后续计量分析的可靠性。
常用场景
经典使用场景
在房地产评估与历史建筑保护领域,historical-appraisals-ocr-ml数据集通过数字化历史房产评估卡片,为研究者提供了1930年代至2023年的跨时空建筑价值对比分析基础。其核心应用场景包括利用OCR技术从扫描卡片中提取建筑价值数据,并与现代房产特征数据进行关联研究,尤其适用于美国俄亥俄州汉密尔顿县和富兰克林县的区域经济史研究。
衍生相关工作
基于该数据集衍生的经典研究包括《跨世纪房产价值空间分布演变》等经济地理学论文,以及多篇发表于ACM COMPASS的OCR技术改进成果。其标注数据已成为训练历史文档识别模型的基准测试集,相关特征工程方法被应用于美国多州房产评估系统升级项目。
数据集最近研究
最新研究方向
在房地产历史评估领域,historical-appraisals-ocr-ml数据集为研究历史房产价值演变提供了重要支持。该数据集通过OCR技术将历史房产评估卡片数字化,并结合当代房产特征数据,为研究历史与当代房产价值关联性提供了丰富素材。当前研究热点集中在利用深度学习模型提升手写体OCR识别准确率,以及探索历史房产价值与当代社会经济指标之间的长期关联。这一研究方向不仅有助于理解城市发展的历史脉络,也为房产税基评估和政策制定提供了数据支撑。数据集所涵盖的汉密尔顿县和富兰克林县案例,为美国中西部城市历史建筑保护与价值评估研究提供了典型样本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作