STEP
收藏arXiv2025-09-18 更新2025-09-20 收录
下载链接:
https://github.com/step-framework/step
下载链接
链接失效反馈官方服务:
资源简介:
STEP(结构化训练和评估平台)是一个用于轨迹预测模型基准测试的新框架。该框架旨在解决现有框架在支持异构交通场景、联合预测模型或用户文档方面的不足。它提供了多个数据集的统一接口,执行一致的训练和评估条件,并支持广泛的预测模型。STEP框架包括12个最先进的轨迹预测数据集,支持多种场景的测试,并提供详尽的文档支持,方便新数据集、模型和评估指标的添加。
STEP (Structured Training and Evaluation Platform) is a novel framework for benchmarking trajectory prediction models. This framework aims to address the limitations of existing frameworks in supporting heterogeneous traffic scenarios, joint prediction models, or user documentation. It provides unified interfaces for multiple datasets, enforces consistent training and evaluation conditions, and supports a wide range of prediction models. The STEP framework includes 12 state-of-the-art trajectory prediction datasets, supports testing across diverse scenarios, and offers comprehensive documentation to facilitate the addition of new datasets, models, and evaluation metrics.
提供机构:
代尔夫特理工大学认知机器人系
创建时间:
2025-09-18
搜集汇总
数据集介绍

构建方式
STEP数据集通过模块化架构整合了12个异构交通场景数据集,包括Argoverse2、Waymo等大规模通用数据集及rounD、inD等特定场景数据集。其构建采用统一数据转换管道:首先通过DL模块加载原始轨迹数据(含位置、速度、车辆类型及车道拓扑信息),再经DT模块标准化为框架兼容格式,最后支持DB模块实现高层行为标注(如交叉口让行决策)。数据划分支持多种策略,包括按地理位置留出验证、随机交叉验证及安全关键场景专项划分,确保评估的全面性与公平性。
使用方法
用户可通过编写仿真配置文件定义实验流程:选择数据组合(可叠加扰动方法)、设定输入输出时间步参数、指定划分策略与评估模型。框架自动执行标准化训练-测试流水线,包括数据加载、扰动注入、模型训练与多维度指标计算(如minADE、NLL、AUC等)。支持跨数据集泛化测试与对抗鲁棒性评估,并可利用预训练模型进行微调实验。所有中间结果均缓存复用,确保实验可复现性与高效性。
背景与挑战
背景概述
STEP(结构化训练与评估平台)由荷兰代尔夫特理工大学认知机器人学系于2025年提出,旨在解决自动驾驶轨迹预测模型评估标准化不足的核心问题。该平台由Julian F. Schumann等学者主导开发,通过整合12种主流轨迹数据集(如Argoverse2、Waymo、nuScenes等),构建了统一的训练与评估接口。其研究聚焦于多智能体交互预测的泛化性与鲁棒性,推动了自动驾驶系统在复杂交通场景下的决策可靠性研究,为领域提供了首个支持对抗攻击测试与跨数据集验证的基准框架。
当前挑战
轨迹预测领域长期面临异构交通场景下模型评估标准缺失的挑战,具体表现为:现有框架难以支持多智能体联合预测模型的一致性训练验证,且缺乏对抗攻击鲁棒性测试能力。在构建过程中,STEP需克服多源数据集格式异构性(如传感器频率、坐标系统差异)、动态场景下的行为标注一致性,以及跨数据集分割策略的标准化等工程挑战,同时需确保模块化设计满足社区扩展需求。
常用场景
经典使用场景
在自动驾驶系统的轨迹预测研究中,STEP数据集被广泛应用于多智能体交互场景的建模与评估。该框架通过整合12个异构交通数据集(如Argoverse2、rounD等),支持对车辆、行人、自行车等多种交通参与者的轨迹进行联合预测。其经典使用场景包括城市道路交叉口、高速公路合流区以及环形路口等复杂交通环境,能够为模型提供丰富的交互上下文信息。
解决学术问题
STEP框架有效解决了轨迹预测领域长期存在的评估标准不统一问题。它通过提供统一的数据接口、可控的数据分割机制以及标准化评估指标,消除了因数据预处理差异导致的性能对比偏差。该平台特别针对多智能体联合预测模型的评估短板,引入了交互感知的度量标准,并为对抗性攻击测试提供原生支持,从而推动了对模型泛化能力和鲁棒性的系统性研究。
实际应用
在实际自动驾驶系统中,STEP可作为预测模块的验证平台集成到开发流程。汽车制造商能够利用其多数据集支持特性,在不同地域交通场景(如德国环形路口与美国城市道路)测试预测模型的适应性。该框架还支持定制化测试场景生成,包括对抗性攻击模拟和跨域泛化测试,有助于评估自动驾驶系统在极端工况下的安全性能。
数据集最近研究
最新研究方向
自动驾驶领域轨迹预测研究正从单一性能指标评估转向多维度的系统性分析。STEP框架的提出推动了该领域研究范式的转变,重点关注多智能体联合预测模型的交互建模能力、跨场景泛化性能以及对抗攻击鲁棒性等前沿方向。近期研究热点集中在利用统一基准平台分析模型对输入参数(如观测时长和频率)的敏感性,揭示传统评估方法中存在的训练随机性偏差问题。该框架支持对12种异构数据集进行标准化测试,显著提升了不同预测模型在复杂交通场景下性能对比的科学性与可复现性,为构建更安全可靠的自动驾驶预测系统提供了重要技术支撑。
相关研究论文
- 1STEP: Structured Training and Evaluation Platform for benchmarking trajectory prediction models代尔夫特理工大学认知机器人系 · 2025年
以上内容由遇见数据集搜集并总结生成



