TPU首token延迟训练数据

Name: TPU首token延迟训练数据
Creator: 中昊芯英（杭州）科技有限公司
Published: 2026-06-30 21:12:04
License: 暂无描述

浙江省数据知识产权登记平台2026-06-30 更新2026-07-01 收录

下载链接：

https://www.zjip.org.cn/home/announce/trends/8455400

下载链接

链接失效反馈

官方服务：

资源简介：

本数据用于训练回归模型，根据TPU实时状态（利用率、显存使用、温度、功率、请求排队长度、显存带宽利用率）预测首token延迟。在实际大语言模型（LLM）在线推理服务中，首token延迟直接影响用户等待的第一印象，是服务质量的关键指标。通过本数据集训练的模型，能够：帮助云服务商：实时监控TPU负载与排队情况，提前预测首token延迟是否即将超过服务等级协议（SLA）阈值（如50ms），并据此触发动态扩容、请求限流或优先级调度，避免因响应过慢导致用户流失。帮助AI芯片厂商：分析不同负载条件下首token延迟与硬件状态（温度、功率、带宽利用率）的关联，定位性能瓶颈是计算、访存还是热节流，为芯片调度策略优化提供数据支撑。帮助模型部署工程师：在离线仿真环境中评估排队策略、并发上限对首token延迟的影响，提前优化系统参数。1. 加工前的原始数据原始数据为TPU运行大语言模型在线推理服务的状态监控日志，每行对应一个请求时刻。字段包括：编号、TPU利用率(%)、显存使用(GiB)、TPU温度(℃)、TPU功率(W)、请求排队长度、显存带宽利用率(%)、首token延迟(ms)。所有字段均为数值型且无缺失值，数据总量达数千行以上，覆盖不同负载强度、排队长度及热状态。 2. 处理规则数据清洗：剔除超出物理合理范围的记录（如负值、超过硬件极限的值），删除所有字段完全相同的重复记录。特征与目标定义：自变量为TPU利用率、显存使用、TPU温度、TPU功率、请求排队长度、显存带宽利用率（共6个）；因变量为首token延迟。特征标准化：对全部自变量进行Z-score标准化，消除量纲影响。标准化参数（均值、标准差）由训练集计算，并应用于验证集和测试集。数据集划分：将清洗后的完整数据按8:1:1的比例随机划分为训练集、验证集和测试集，保证三部分数据分布一致。模型验证：基于随机森林回归算法（输入6个自变量，输出首token延迟），通过网格搜索优化超参数（树数量、最大深度等）。特征重要性分析表明，请求排队长度和TPU利用率是影响首token延迟的主要因素。模型在测试集上达到R² > 0.86，训练集与测试集误差差异小于6%，无过拟合迹象，证明数据集的有效性。 3. 数据内容描述最终产出数据集为表格形式，包含编号、6个自变量、1个因变量，共8个字段。所有记录均来自真实TPU推理环境，覆盖完整工况范围。数据已标准化并按8:1:1划分，可直接用于监督学习回归任务，训练首token延迟预测模型。

提供机构：

中昊芯英（杭州）科技有限公司

创建时间：

2026-04-17

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集包含5005条来自真实TPU推理环境的监控记录，以TPU利用率、显存使用、温度、功率、请求排队长度及显存带宽利用率为自变量，预测首token延迟这一关键服务质量指标。数据经清洗、Z-score标准化并按8:1:1划分为训练、验证和测试集，可直接用于回归建模。基于随机森林的验证表明，请求排队长度与TPU利用率是影响延迟的主要因素，模型R²超过0.86且无过拟合，能有效支持SLA预警、芯片性能分析及部署参数优化。

以上内容由遇见数据集搜集并总结生成