ViT latency dataset
收藏arXiv2025-10-29 更新2025-10-31 收录
下载链接:
http://arxiv.org/abs/2510.25166v1
下载链接
链接失效反馈官方服务:
资源简介:
ViT延迟数据集包含了1000个合成ViT的延迟测量数据,这些ViT具有代表性的构建块和最先进的架构,来自两个机器学习框架和六个移动平台。该数据集旨在帮助研究人员和开发者进行性能分析,并用于训练机器学习延迟预测器,以准确预测新ViT的推理延迟,应用于神经架构搜索和协作推理等领域。
The ViT Latency Dataset contains latency measurement data for 1000 synthetic ViTs. These ViTs feature representative building blocks and state-of-the-art architectures, and are sourced from two machine learning frameworks and six mobile platforms. This dataset is designed to support researchers and developers in performance analysis, and can be employed to train machine learning-based latency predictors to accurately forecast the inference latency of novel ViTs, enabling applications including neural architecture search and collaborative inference.
提供机构:
南加州大学
创建时间:
2025-10-29
搜集汇总
数据集介绍

构建方式
在移动设备视觉计算领域快速发展的背景下,ViT延迟数据集通过系统化方法构建而成。研究团队首先收集了190个真实世界的视觉变换器模型,涵盖Timm和HuggingFace等主流模型库,并采用分层架构设计生成1000个合成ViT。这些模型在6种移动平台和2个主流机器学习框架上进行了全面部署,通过精心设计的搜索空间参数配置,包括嵌入维度、注意力头数、激活函数类型等关键变量,确保了数据集的代表性和多样性。测量过程中采用随机初始化图像输入,并考虑不同CPU核心组合与数据表示形式的影响,为移动端ViT性能分析提供了坚实基础。
特点
该数据集最显著的特征在于其多维度的性能测量覆盖。不仅包含端到端推理延迟数据,还详细记录了各类操作(卷积、线性、矩阵乘法等)的延迟分解信息,同时涵盖内存消耗和性能瓶颈分析。数据集特别突出了移动设备特有的性能特征,如异构CPU核心的差异表现、内存格式(NCHW与NHWC)对卷积操作的影响,以及GELU激活函数因输入值不同而产生的延迟波动现象。此外,数据集还包含了量化前后的性能对比,为模型优化提供了重要参考依据。这种全方位的性能表征使其成为移动端ViT研究的宝贵资源。
使用方法
该数据集为研究社区提供了丰富的应用场景。在神经架构搜索领域,研究者可利用数据集训练延迟预测器,快速评估候选ViT架构在目标设备上的性能表现,显著降低实际部署成本。对于协同推理应用,数据集支持模型分割点的延迟估算,帮助确定计算卸载与传输开销之间的最优平衡。使用方法包括加载预收集的性能数据,提取特定操作或整体模型的延迟特征,并基于此构建机器学习预测模型。数据集支持跨平台对比分析,允许研究者在不同移动设备和ML框架下进行性能评估,为移动端ViT的优化部署提供科学依据。
背景与挑战
背景概述
随着移动设备机器学习技术的显著进步,尤其在计算机视觉领域,视觉变换器(ViT)凭借其卓越的精度表现逐渐成为传统卷积神经网络的有力替代。2025年,南加州大学研究团队Zhuojin Li等人创建了ViT延迟数据集,旨在系统量化190个真实世界ViT模型在移动设备上的推理延迟特性,并与102个CNN模型进行对比分析。该数据集通过整合六种移动平台和两种主流机器学习框架的测量数据,揭示了ViT在移动环境中的性能瓶颈,为优化实时视觉任务部署提供了关键基准。
当前挑战
该数据集致力于解决移动端ViT模型延迟预测的核心难题:其自注意力机制导致的计算复杂度呈二次增长,使得模型在资源受限设备上面临严峻的内存带宽压力与异构核心调度挑战。构建过程中,研究者需克服多重障碍:包括移动GPU对ViT操作支持不足导致的测量局限、不同机器学习框架中内存格式转换引发的性能波动,以及GELU激活函数因输入值差异产生的延迟不稳定性。此外,量化优化在部分框架中引发的性能退化问题,进一步增加了数据集构建的复杂性。
常用场景
经典使用场景
在移动设备视觉计算领域,ViT延迟数据集为研究社区提供了系统评估视觉Transformer架构性能的基准平台。该数据集通过测量190个真实世界ViT模型和1000个合成ViT模型在六种移动平台上的推理延迟,构建了涵盖PyTorch Mobile和TensorFlow Lite两大框架的完整性能图谱。研究人员可利用该数据集深入分析不同ViT组件对延迟的影响机制,为模型优化提供数据支撑。
实际应用
在实际应用层面,该数据集为移动端智能视觉系统的开发提供了重要参考。基于数据集训练的延迟预测模型可应用于神经架构搜索过程,帮助开发者快速评估候选ViT架构在目标设备上的性能表现。在协同推理场景中,预测模型能准确估算模型分区的计算耗时,优化云端与移动端的计算负载分配。这些应用显著降低了移动端ViT模型的部署成本,推动了高效视觉模型在边缘设备上的落地。
衍生相关工作
该数据集催生了多项重要的衍生研究工作。基于数据集构建的GBDT延迟预测模型在移动CPU上实现了4.44%的预测误差,为神经架构搜索提供了可靠工具。研究还揭示了内存格式优化可使卷积操作获得2.21倍加速,这一发现推动了移动端模型编译优化技术的发展。数据集启发的混合核心调度策略研究,为异构移动处理器的资源分配提供了新的优化方向。
以上内容由遇见数据集搜集并总结生成



