Geolife-Spatial-Join-0.15B
收藏Hugging Face2026-01-25 更新2026-01-26 收录
下载链接:
https://huggingface.co/datasets/DannHiroaki/Geolife-Spatial-Join-0.15B
下载链接
链接失效反馈官方服务:
资源简介:
GeoLife-Spatial-Join-149M是一个高维矩形-矩形相交连接基准数据集,源自GeoLife GPS Trajectories (v1.3)数据集。它将轨迹点转换为轴对齐边界框(AABBs)/超矩形,以便通过纯AABB相交连接(闭区间语义)评估'在空间和时间阈值内相遇'的情况。该数据集总共包含约149M条矩形记录,分为六组:3D(x,y,t)和4D(x,y,z,t)各三个级别(level=1/2/3)。其中,x、y、z单位为厘米(整数),投影到EPSG:3857(Web Mercator);t单位为Unix纪元毫秒(整数)。相遇阈值按级别划分:Level 1为Δd=20m,Δt=60s;Level 2为Δd=50m,Δt=300s;Level 3为Δd=200m,Δt=1200s。
创建时间:
2026-01-23
原始信息汇总
GeoLife Spatial Join Benchmark 数据集概述
数据集基本信息
- 数据集名称:GeoLife Spatial Join Benchmark
- 数据集标识:DannHiroaki/Geolife-Spatial-Join-0.15B
- 数据量级:100M<n<1B
- 语言:英语
- 许可协议:Microsoft Research License Agreement(非商业用途)
- 任务类别:表格回归
- 标签:地理空间、轨迹、基准测试、时空、空间连接
数据来源与性质
- 数据来源:派生自 Microsoft GeoLife Trajectories 1.3
- 注释创建者:机器生成
- 核心内容:将轨迹点转换为轴对齐边界框/超矩形,用于通过纯AABB相交连接评估“在空间和时间阈值内的相遇”。
数据集构成与配置
数据集总计包含约1.49亿个矩形记录,分为六个配置组:
三维轨迹配置
- 配置名称:3d_level1
- 数据文件:dims=3/level=1/*.parquet
- 描述:具有1级相遇阈值(20米,60秒)的3D(x, y, t)轨迹
- 配置名称:3d_level2
- 数据文件:dims=3/level=2/*.parquet
- 描述:具有2级相遇阈值(50米,300秒)的3D(x, y, t)轨迹
- 配置名称:3d_level3
- 数据文件:dims=3/level=3/*.parquet
- 描述:具有3级相遇阈值(200米,1200秒)的3D(x, y, t)轨迹
四维轨迹配置
- 配置名称:4d_level1
- 数据文件:dims=4/level=1/*.parquet
- 描述:具有1级相遇阈值的4D(x, y, z, t)轨迹(仅包含有效海拔)
- 配置名称:4d_level2
- 数据文件:dims=4/level=2/*.parquet
- 描述:具有2级相遇阈值的4D(x, y, z, t)轨迹(仅包含有效海拔)
- 配置名称:4d_level3
- 数据文件:dims=4/level=3/*.parquet
- 描述:具有3级相遇阈值的4D(x, y, z, t)轨迹(仅包含有效海拔)
元数据配置
- 配置名称:dictionary
- 数据文件:dict/trajectories.parquet
- 描述:用于原始轨迹的元数据映射表(traj_id 到源文件)
数据规格与编码
- 空间坐标(x, y, z):厘米(整数),投影至 EPSG:3857(Web Mercator)
- 时间坐标(t):Unix纪元毫秒(整数)
相遇阈值定义(按级别)
- 级别1:Δd = 20 米,Δt = 60 秒
- 级别2:Δd = 50 米,Δt = 300 秒
- 级别3:Δd = 200 米,Δt = 1200 秒
存储结构与文件
- 主数据路径:
dims=3/level={1,2,3}/part-*.parquetdims=4/level={1,2,3}/part-*.parquet
- 元数据文件:
dict/trajectories.parquet:包含traj_id -> traj_src映射以及每个轨迹的统计信息manifest.json:包含构建参数、精确的行计数以及文件列表
相关资源
- 数据集构建详情与参考构建器:https://github.com/DANNHIROAKI/Geolife-Spatial-Join-0.15B-Builder
搜集汇总
数据集介绍

构建方式
在时空数据科学领域,Geolife-Spatial-Join-0.15B数据集通过系统化处理原始GeoLife GPS轨迹数据构建而成。其核心方法是将每个轨迹点转换为轴对齐边界框,即三维或四维超矩形,其中空间坐标投影至EPSG:3857坐标系并以厘米为单位编码,时间戳则采用Unix毫秒纪元表示。构建过程中依据预设的相遇阈值定义了三个等级,分别对应不同的空间与时间容差,从而生成约1.49亿条矩形记录,并以Parquet格式分片存储,确保了数据的高效访问与可扩展性。
使用方法
针对时空计算与算法研究,该数据集的使用可通过Hugging Face Hub便捷实现。用户可借助命令行工具完整下载数据集或选择性获取特定维度与等级的分片数据,例如仅下载三维一级阈值下的Parquet文件。下载前支持干运行模式以预估数据规模,而本地存储后,利用Parquet格式的高效列式存储特性,可结合常见数据处理框架进行加载与分析,从而服务于空间连接查询、轨迹相似性计算或分布式系统基准测试等多种研究与应用需求。
背景与挑战
背景概述
GeoLife-Spatial-Join-0.15B数据集源于微软研究院发布的GeoLife GPS轨迹数据集1.3版本,由研究团队通过机器生成方式构建,专注于高维空间连接基准测试。该数据集将原始轨迹点转换为轴对齐边界框或超矩形,以支持基于空间与时间阈值的相遇事件分析,核心研究问题在于高效处理大规模时空轨迹数据的矩形-矩形交集连接操作。其创建旨在推动地理空间计算、轨迹数据挖掘及时空数据库领域的发展,为评估空间连接算法的性能提供了标准化、可扩展的基准平台,对提升复杂时空查询的准确性与效率具有显著影响力。
当前挑战
该数据集致力于解决地理空间轨迹分析中高维空间连接查询的挑战,具体涉及在庞大轨迹数据集中快速识别满足特定时空接近性条件的相遇事件,这对算法的可扩展性与精度提出了严格要求。构建过程中的挑战包括从原始GPS轨迹中提取并规范化坐标与时间信息,将其投影至Web Mercator坐标系并以厘米和毫秒为单位进行整数编码,同时需依据不同阈值级别生成一致的边界框表示,并确保数据完整性及高效存储与访问,以支持亿级规模记录的可靠处理与分析。
常用场景
经典使用场景
在时空数据管理与分析领域,Geolife-Spatial-Join-0.15B数据集为高维空间连接查询提供了标准化的评估基准。该数据集将原始GPS轨迹点转换为轴对齐包围盒,通过定义不同级别的空间与时间阈值,模拟了现实世界中移动对象相遇的复杂场景。研究人员利用其大规模的三维或四维矩形数据,能够系统性地测试和优化空间连接算法的性能,特别是在处理海量轨迹数据时的效率与准确性。
解决学术问题
该数据集有效解决了时空数据查询中高维空间连接计算的效率瓶颈问题。传统方法在处理大规模轨迹相遇查询时面临计算复杂度高、可扩展性不足的挑战。通过提供标准化的轴对齐包围盒表示与多级阈值配置,数据集支持了对索引结构、并行算法和近似查询技术的深入研究,推动了时空数据库与数据管理系统在理论模型与工程实践上的协同发展。
实际应用
在实际应用层面,该数据集支撑了智能交通系统、流行病传播分析和社交网络行为研究等多个领域。例如,在公共卫生监测中,通过分析个体轨迹的时空交集,可以建模疾病接触网络;在城市规划中,则能评估人群流动模式与基础设施使用情况。数据集提供的多尺度阈值使得应用能够根据不同精度需求灵活调整,增强了模型的实用性与解释性。
数据集最近研究
最新研究方向
在时空数据科学领域,轨迹数据的空间连接查询是支撑移动行为分析和城市计算的核心操作。Geolife-Spatial-Join-0.15B数据集通过将原始GPS轨迹转换为轴对齐边界框,为高维空间连接算法提供了标准化基准。当前研究聚焦于利用该数据集推动分布式时空索引结构的优化,特别是在处理亿级矩形数据时提升查询效率。随着智慧城市和移动计算应用的兴起,数据集支持的不同时空阈值配置为模拟人群接触模式、交通流分析等热点场景提供了实验基础。其严格的数据编码与多维度配置不仅促进了时空数据库系统的性能评测,也为机器学习模型在轨迹预测与异常检测中的特征工程提供了可靠的数据支撑。
以上内容由遇见数据集搜集并总结生成



