Embedding Tiles
收藏Embedding Tiles 数据集概述
数据集简介
本数据集为美国科罗拉多州博尔德县的Overture兴趣点(POI)嵌入瓦片。数据以Protobuf和JSON格式提供,基于z14 Web墨卡托网格,包含768维EmbeddingGemma向量、来自街景图像的视觉描述以及Mapillary图像链接。
数据集构成
提供了两个子数据集:
| 数据集名称 | 存储路径 | POI数量 | 描述 |
|---|---|---|---|
| 完整数据集 | embedding-tiles-overture/z14/ |
12,406 | 博尔德县所有带有嵌入向量的Overture POI |
| 仅视觉数据集 | embedding-tiles-overture-visual/z14/ |
2,245 | 拥有来自Mapillary街景图像视觉描述的POI |
每个瓦片提供两种格式:.pb(Protobuf,紧凑格式)和.json(人类可读格式)。
数据访问
瓦片公开托管在S3上,可直接获取:
完整数据集:
https://zephrpoint-public-models.s3.us-east-2.amazonaws.com/embedding-tiles-overture/z14/x{X}_y{Y}.pb https://zephrpoint-public-models.s3.us-east-2.amazonaws.com/embedding-tiles-overture/z14/x{X}_y{Y}.json
仅视觉数据集:
https://zephrpoint-public-models.s3.us-east-2.amazonaws.com/embedding-tiles-overture-visual/z14/x{X}_y{Y}.pb https://zephrpoint-public-models.s3.us-east-2.amazonaws.com/embedding-tiles-overture-visual/z14/x{X}_y{Y}.json
瓦片格式
瓦片网格
瓦片遵循标准的z14 Web墨卡托(滑动地图)切片方案。每个瓦片文件名编码其网格位置:x{X}_y{Y}.pb。
数据模式
瓦片数据遵循Protobuf模式,主要包含WaypointTile消息,其中包含重复的Waypoint消息。每个Waypoint包含以下关键字段:
| 字段 | 编号 | 类型 | 描述 |
|---|---|---|---|
id |
1 | string | UUID标识符 |
name |
2 | string | POI名称 |
latitude |
3 | double | WGS84纬度 |
longitude |
4 | double | WGS84经度 |
description |
5 | string | Overture POI描述 |
embedding |
8 | repeated float | 768维EmbeddingGemma文档嵌入向量 |
embedding_document |
9 | string | 用于生成文档嵌入的源文本 |
types |
11 | string | Overture POI类型类别 |
visual_description |
14 | string | 基于街景图像的AI生成描述 |
visual_embedding |
15 | repeated float | 768维EmbeddingGemma视觉嵌入向量 |
enclosing_roads |
16 | repeated RoadSegment | 相邻道路段 |
phone |
17 | string | 电话号码 |
address |
18 | string | 街道地址 |
entrance_lat |
20 | double | 入口纬度(面向道路的立面中点) |
entrance_lon |
21 | double | 入口经度 |
mapillary_ids |
22 | repeated string | 经过质量检查的Mapillary街景图像ID |
website |
23 | string | 网站URL |
overture_building_id |
24 | string | Overture Maps建筑特征ID |
JSON格式文件镜像了Protobuf瓦片的结构。
嵌入向量
两个嵌入向量字段均使用EmbeddingGemma(768维):
embedding(字段8)— 从embedding_document(字段9)生成的文档嵌入向量,该文本结合了POI名称、类型和描述,形成可搜索的文本表示。visual_embedding(字段15)— 从visual_description(字段14)生成的视觉嵌入向量,该描述基于Mapillary街景图像描述了POI的物理外观。
仅视觉数据集仅包含visual_description(字段14)有值的POI。
数据集统计
完整数据集 (embedding-tiles-overture/)
| 指标 | 数量 |
|---|---|
| 总瓦片数 | 575 |
| 总POI数 | 12,406 |
| 拥有文档嵌入向量(768维) | 12,406 |
| 拥有embedding_document | 12,406 |
| 拥有visual_description | 2,245 |
| 拥有视觉嵌入向量(768维) | 2,245 |
| 拥有mapillary_ids | 4,246 |
| 拥有入口坐标 | 12,406 |
| 拥有enclosing_roads | 11,898 |
仅视觉数据集 (embedding-tiles-overture-visual/)
| 指标 | 数量 |
|---|---|
| 总瓦片数 | 575(227个非空) |
| 总POI数 | 2,245 |
| 拥有文档嵌入向量(768维) | 2,245 |
| 拥有visual_description | 2,245 |
| 拥有视觉嵌入向量(768维) | 2,245 |
| 拥有mapillary_ids | 1,852 |
数据来源
瓦片数据结合了多个来源:
- Overture Maps — 基础POI数据(名称、位置、类型、地址、建筑轮廓)
- Mapillary — 街景图像
- EmbeddingGemma — 用于语义搜索的768维嵌入向量
- 建筑几何 — 根据Overture建筑轮廓和道路段计算出的入口坐标
地理覆盖范围
瓦片覆盖美国科罗拉多州博尔德县(边界框:北纬39.89°至40.28°,西经-105.58°至-105.03°)。
许可证
本数据衍生自Overture Maps(ODbL)和Mapillary(CC BY-SA)。嵌入向量和视觉描述由zephr-maps流水线生成。




