Davis_Square_v1.0
收藏Hugging Face2025-10-31 更新2025-11-01 收录
下载链接:
https://huggingface.co/datasets/DBbun/Davis_Square_v1.0
下载链接
链接失效反馈官方服务:
资源简介:
DBbun Davis Square合成数据集,模拟了马萨诸塞州萨默维尔市戴维斯广场地区从1800年代到2200年代的演变,包含街道、公园、兴趣点、家庭属性等合成数据,适用于数据科学、分析和机器学习的学习和研究。
创建时间:
2025-10-21
原始信息汇总
DBbun Davis Square 合成数据集 (1800–2200) 概述
数据集基本信息
- 数据集名称:DBbun Davis Square Synthetic Dataset (1800–2200)
- 许可证:cc-by-nc-4.0
- 性质:完全合成、无隐私风险、教育用途
- 地理范围:马萨诸塞州萨默维尔市Davis Square地区
- 时间跨度:1800年代至2200年代
数据表结构
地理数据表
geo_streets.csv:真实街道名称与合成几何数据geo_parks.csv:真实公园名称作为位置锚点
兴趣点与家庭数据
poi_generic.csv:通用兴趣点(餐厅、咖啡馆、杂货店、药店等)households.csv:合成家庭属性(住宅类型、居住者、收入、租期)
宠物与出行数据
pets_registry.csv:宠物所有权登记pet_incidents.csv:社区宠物事件mobility_trips.csv:各时代出行方式(步行、自行车、汽车、公交、火车)
公共安全与事件
public_safety.csv:合成安全事件(类别和严重程度)events_civic.csv:公民和节日活动(如HONK风格游行)
环境与基础设施
observations.csv:环境测量(噪音、空气质量、温度、人流量)bike_infra.csv:自行车基础设施统计traffic_counts.csv:交通量统计infrastructure_events.csv:基础设施事件(树木倒塌、水管破裂、坑洞、停电)building_issues.csv:家庭维护和系统故障
交通与价格数据
transit_*:交通线路、站点和日客流量prices_index.csv:长期价格指数(住房、食品、交通费用)
环境与生态
weather_daily.csv:1900年至2200年每日合成天气trees_inventory.csv:街道树木登记(树种和高度)
辅助文件
DATA_DICTIONARY.json:列级描述README.txt:生成数据集摘要
数据集规模选项
| 规模 | 约家庭数 | 约出行次数 | 使用场景 |
|---|---|---|---|
| tiny | 300 | 3,000 | 快速演示、语法教学 |
| small | 2,000 | 25,000 | 课堂练习 |
| medium | 8,000 | 120,000 | 研究、机器学习原型 |
| large | 30,000 | 500,000 | 性能和扩展测试 |
| xlarge | 80,000 | 2,000,000 | 大规模模拟 |
应用示例
分析演示
- DBbun_Davis_medium_demo.ipynb:描述性分析和可视化
- 街道和公园地图绘制
- 家庭构成和出行方式分析
- 噪音、空气质量和事件趋势
- 天气和基础设施摘要
机器学习演示
- DBbun_Davis_ML_demo.ipynb:机器学习示例
- 分类:预测高严重性安全事件
- 回归:根据天气和交通预测噪音水平
- 聚类:基于出行模式的街道K-Means分组
主要应用领域
- 数据整理、可视化和机器学习教学
- 无隐私顾虑的地理空间分析实践
- 城市数据仪表板和可视化叙事设计
- 合成数据管道或评估指标基准测试
- 具有真实安全数据集的黑客松和训练营
隐私声明
所有数据均为合成生成,使用随机几何和时间演化算法创建,不包含任何个人、可识别或专有信息。
搜集汇总
数据集介绍

构建方式
作为城市模拟研究领域的重要资源,该数据集采用算法生成技术构建了马萨诸塞州戴维斯广场地区从19世纪至23世纪的完整时空演化模型。通过参数化建模方法生成了包含街道网络、建筑分布、人口特征等30余个维度的城市要素,所有地理坐标均经过随机扰动处理,确保在保持空间逻辑自洽的同时彻底消除隐私风险。数据生成过程严格遵循城市发展规律,通过多智能体仿真技术模拟了居民出行、环境变化等动态过程。
使用方法
使用者可通过配套的Jupyter Notebook快速开展数据分析实践,其中既包含基于描述性统计的城市空间可视化案例,也提供了机器学习建模的完整流程示范。在分类任务中可预测高等级安全事件,回归分析则能探索环境指标与交通因素的关联规律,聚类算法更可识别街道的移动模式特征。所有分析结果均支持本地化存储,为后续深入研究提供坚实基础,特别适合作为城市信息学教学与研究的标准化实验平台。
背景与挑战
背景概述
Davis_Square_v1.0数据集由DBbun团队于当代创建,作为教育导向的合成数据资源,聚焦于模拟美国马萨诸塞州萨默维尔市戴维斯广场区域从19世纪至23世纪的时空演变。该数据集通过算法生成多维城市数据,涵盖人口、交通、环境及基础设施等要素,旨在为数据科学教学与研究提供无隐私风险的实验平台。其核心研究问题在于探索长期城市动态模拟的可行性,推动了合成数据技术在社会科学与城市规划领域的应用,成为跨学科教育的重要工具。
当前挑战
该数据集致力于解决城市系统建模中历史与未来场景重构的复杂性挑战,包括多维度社会生态指标的整合与时空一致性的维护。构建过程中面临算法生成真实性与多样性的平衡难题,需在虚构数据中保留现实世界的统计规律;同时,跨世纪数据的时序连贯性与地理空间合理性要求精细的模拟策略,以避免生成矛盾或失真的城市演化轨迹。
常用场景
经典使用场景
在城市研究与数据科学教育领域,Davis_Square_v1.0数据集以其跨越四个世纪的合成时空数据,为探索城市动态演变提供了理想平台。学者常利用其多维表格——如家庭属性、交通出行与环境观测——构建城市模拟系统,通过机器学习方法分析历史至未来的模式变迁,例如基于天气与交通量预测噪声分布,或通过聚类识别街道的移动性特征演变轨迹。
解决学术问题
该数据集有效解决了城市研究中真实数据稀缺与隐私保护间的矛盾,为时空预测、因果推断等学术问题提供安全试验场。其合成属性支持对长期社会生态交互的量化分析,如住房价格指数与基础设施事件的关联建模,或交通模式演化对环境影响的反事实推演,显著推进了城市复杂系统理论的验证与深化。
实际应用
在实际应用层面,该数据集成为政府与教育机构构建智慧城市沙盒的核心资源。城市规划者藉其模拟政策干预效果,如评估新建自行车道对通勤模式的影响;教育机构则将其用于数据素养培训,通过可视化仪表板设计、地理空间分析实践,培养跨领域人才应对现实城市治理挑战。
数据集最近研究
最新研究方向
在合成数据驱动的城市科学领域,Davis_Square_v1.0数据集正推动多学科交叉研究。前沿探索聚焦于时空序列预测模型的优化,通过整合四个世纪的交通流动、环境观测与基础设施事件数据,揭示城市动态演化的长期规律。当前热点集中于隐私保护型机器学习框架的验证,利用合成地理坐标与虚拟人口特征,为智慧城市治理提供可扩展的仿真基准。这类研究显著降低了真实数据获取的伦理风险,同时为气候变化背景下的城市韧性评估开辟了新路径。
以上内容由遇见数据集搜集并总结生成



