cherieho/mia_dataset
收藏数据集卡片:Map It Anywhere (MIA)
数据集描述
Map It Anywhere (MIA) 数据集包含120万对高质量的第一人称视角 (FPV) 和鸟瞰图 (BEV) 地图对,覆盖470平方公里的区域,旨在促进未来地图预测研究在泛化性和鲁棒性方面的进展。该数据集由 MIA 数据引擎 从六个以城市为中心的地点(纽约、芝加哥、休斯顿、洛杉矶、匹兹堡和旧金山)采样生成。
- 数据集来源: 由卡内基梅隆大学 Airlab 团队(Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer)策划。
- 许可证: FPV 图像及其相关元数据遵循 Mapillary 的 CC-By-SA 许可证发布。BEV 地图遵循 OpenStreetMap 的 ODbL 许可证发布。
数据集结构
ROOT
|
--- LOCATION_0 # 地点文件夹
| |
| +--- images # FPV 图像 (XX.jpg)
| +--- semantic_masks # 语义掩码 (XX.npz)
| +--- flood_fill # 可见性掩码 (XX.npz)
| ---- dump.json # 相机姿态信息
| ---- image_points.parquet
| ---- image_metadata.parquet
| ---- image_metadata_filtered.parquet
| ---- image_metadata_filtered_processed.parquet
--- LOCATION_1
.
.
|
+-- LOCATION_2
--- README.md
--- samples.pdf # 样本数据可视化
数据集创建
策划理由
MIA 数据引擎和数据集的创建旨在加速全球地图预测研究的发展。当前的地图预测研究依赖于少数由自动驾驶公司发布的地图预测数据集,覆盖区域非常有限。因此,我们提出了 MIA 数据引擎,通过从大规模众包地图平台(如 Mapillary 和 OpenStreetMap)获取数据,实现更可扩展的方法。
数据来源
MIA 数据集包括来自两个来源的数据:
- Mapillary: 用于第一人称视角 (FPV) 图像,Mapillary 是一个拥有超过20亿张众包图像的公共数据库,遵循 CC BY-SA 许可证。
- OpenStreetMap: 用于鸟瞰图 (BEV) 地图,OpenStreetMap 是一个全球众包地图平台,遵循 Open Data Commons Open Database License (ODbL)。
偏差、风险和限制
尽管我们在常规数据集上展示了良好的泛化性能,但我们注意到,与手动收集的数据相比,众包数据中存在更高程度的标签噪声,包括姿态对应和 BEV 地图标注。这种噪声在大规模自动抓取/策划的基准测试中很常见,如 ImageNet。虽然我们认识到我们的采样数据集偏向于美国地区,但 MIA 数据引擎适用于全球其他地区。
数据集卡片作者
Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
数据集卡片联系
Cherie Ho (cherieh@andrew.cmu.edu)



