five

ALS Point Cloud Dataset|地理信息系统数据集|遥感技术数据集

收藏
arXiv2025-01-09 更新2025-01-11 收录
地理信息系统
遥感技术
下载链接:
https://github.com/martianxiu/ALS_pretraining
下载链接
链接失效反馈
资源简介:
该数据集是一个大规模的ALS点云数据集,旨在支持ALS应用的预训练和微调范式。数据集由日本产业技术综合研究所人工智能研究中心开发,数据来源于美国地质调查局的3D Elevation Program,涵盖了美国本土的多样化土地覆盖和地形类型。数据集通过地理空间采样方法构建,结合了土地覆盖图和数字高程模型,确保了数据的多样性和高效性。数据集的应用领域包括树种分类、地形场景识别和点云语义分割等任务,旨在提升ALS技术在森林管理和城市规划等领域的应用效果。
提供机构:
日本产业技术综合研究所人工智能研究中心
创建时间:
2025-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
ALS Point Cloud Dataset的构建基于美国地质调查局(USGS)的3D Elevation Program(3DEP)提供的激光雷达(LiDAR)数据。为了确保数据的多样性和代表性,研究团队引入了一种地理空间采样方法,结合了国家土地覆盖数据库(NLCD)的土地覆盖图和数字高程模型(DEM)。通过这种方法,研究团队从3DEP的庞大数据集中选择了具有不同土地覆盖类型和地形特征的激光雷达点云瓦片,确保了数据集的广泛覆盖和多样性。
特点
该数据集的特点在于其规模庞大且覆盖范围广泛,涵盖了美国本土的多种土地覆盖类型和地形特征。数据集包含超过1840亿个点云数据,地理覆盖面积达到17691平方公里,是目前最大的ALS点云数据集之一。此外,数据集通过地理空间采样方法确保了土地覆盖和地形的多样性,使其适用于多种下游任务,如树种分类、地形场景识别和点云语义分割。数据集的点云密度、地面点标准差和返回属性等特征也经过详细分析,进一步验证了其多样性和代表性。
使用方法
ALS Point Cloud Dataset的使用方法主要包括预训练和微调两个阶段。首先,研究团队采用了BEV-MAE(Bird’s Eye View Masked Autoencoder)作为自监督学习模型,对数据集进行预训练。预训练过程中,模型通过掩码自编码的方式学习点云的高层次表示。随后,预训练模型被微调用于多个下游任务,如树种分类、地形场景识别和点云语义分割。实验结果表明,预训练模型在这些任务中显著优于从头训练的模型,证明了该数据集在预训练和微调范式中的有效性。
背景与挑战
背景概述
ALS Point Cloud Dataset 是由日本国立先进工业科学技术研究所(AIST)人工智能研究中心的研究团队于2025年构建的大规模机载激光扫描(ALS)点云数据集。该数据集旨在填补ALS领域在大规模预训练和微调范式中的空白,特别是在森林管理和城市规划等应用场景中。数据集基于美国地质调查局(USGS)的3D Elevation Program(3DEP)提供的点云数据,覆盖了美国本土的多样化土地覆盖和地形类型。通过引入地理空间采样方法,研究团队确保了数据的高效收集和多样性。该数据集的构建为ALS领域的预训练模型提供了重要支持,显著提升了下游任务如树种分类、地形场景识别和点云语义分割的性能。
当前挑战
ALS Point Cloud Dataset 面临的挑战主要集中在两个方面。首先,ALS数据的多样性和复杂性使得模型在预训练过程中难以捕捉到精细的几何细节,尤其是在城市区域中,建筑物和道路的边界信息往往难以准确重建。其次,数据集的构建过程中,如何高效地从海量3DEP数据中提取具有代表性的点云样本是一个关键问题。尽管地理空间采样方法在一定程度上缓解了这一问题,但随机采样方法在数据集扩展时无法带来类似的性能提升,表明采样策略对预训练效果的影响至关重要。此外,ALS数据的稀疏性和密度变化也为模型的训练带来了额外的挑战,尤其是在处理大规模点云时,计算资源的消耗和数据处理效率成为瓶颈。
常用场景
经典使用场景
ALS Point Cloud Dataset 在森林管理和城市规划等领域中具有广泛的应用。该数据集通过大规模预训练和微调范式,显著提升了模型在下游任务中的表现,如树种分类、地形场景识别和点云语义分割。通过地理空间采样方法,数据集能够捕捉多样化的土地覆盖和地形类型,确保模型在不同环境下的泛化能力。
解决学术问题
该数据集解决了ALS(机载激光扫描)领域缺乏大规模、多样化数据的问题,推动了预训练和微调范式在ALS应用中的发展。通过构建大规模点云数据集,研究展示了预训练模型在多个下游任务中的显著性能提升,验证了从数据集中学习到的表示具有可迁移性。此外,地理空间采样方法的引入确保了数据集的多样性和高效性,为ALS领域的研究提供了新的基准。
衍生相关工作
ALS Point Cloud Dataset 的发布推动了多个相关领域的研究进展。基于该数据集,研究人员开发了多种自监督学习方法,如BEV-MAE(鸟瞰图掩码自编码器),用于3D点云的预训练。此外,该数据集还启发了其他大规模点云数据集的构建,如OpenGF和PureForest,进一步推动了ALS领域的预训练和微调范式的发展。这些工作为ALS应用中的模型泛化和性能提升提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

PUZZLES

PUZZLES是由苏黎世联邦理工学院的研究团队基于Simon Tatham的便携式谜题集合开发的强化学习基准数据集,包含40种不同复杂度的逻辑谜题。这些谜题具有可调整的大小和难度,适用于评估强化学习代理的算法和逻辑推理能力。数据集的创建过程中,研究团队将原始C源代码扩展至Pygame库标准,并集成到Gymnasium框架API中,使得用户可以灵活调整谜题的难度和大小。PUZZLES主要应用于强化学习领域,旨在推动算法和逻辑推理在机器学习中的应用和发展。

arXiv 收录

EdNet

圣诞老人收集的各种学生活动的大规模分层数据集,一个配备人工智能辅导系统的多平台自学解决方案。 EdNet 包含 2 年多来收集的 784,309 名学生的 131,441,538 次互动,这是迄今为止向公众发布的 ITS 数据集中最大的。资料来源:EdNet:教育中的大规模分层数据集

OpenDataLab 收录

Thyroid Disease Data

该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录