flashinfer-ai/flashinfer-trace
收藏Hugging Face2026-05-01 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/flashinfer-ai/flashinfer-trace
下载链接
链接失效反馈官方服务:
资源简介:
FlashInfer Trace是一个官方数据集,包含了在真实世界AI系统部署环境中的内核和workload。它被用来衡量和比较内核的性能,遵循FlashInfer Trace Schema。数据集包括definitions, solutions, workloads, 和 traces四个部分,分别用于描述计算任务和参考逻辑、内核或代理的实现、实际推理输入,以及性能测试记录。
FlashInfer Trace is an official dataset containing kernels and workloads in real-world AI system deployment environments. It is used to measure and compare the performance of kernels, following the FlashInfer Trace Schema. The dataset includes four parts: definitions, solutions, workloads, and traces, which are used to describe computation tasks and reference logic, kernel or agent implementations, real inference inputs, and performance test records, respectively.
提供机构:
flashinfer-ai
搜集汇总
数据集介绍

构建方式
FlashInfer Trace数据集专为真实AI系统部署环境中的内核性能评测而设计,遵循FlashInfer Trace Schema规范。数据集采用分层目录结构组织,核心包含definitions与workloads两个模块,并在Hugging Face平台上额外提供solutions与traces示例目录。每个Definition以PyTorch代码形式精确描述计算任务及其数学规范;Solution由人类专家或自主智能体系统提交,需严格遵循Definition的输入输出规格,提供签名一致的入口函数;Workload封装真实推理场景中的具体输入张量与配置参数;Trace则作为不可变更的原子记录,将Solution与Definition及具体Workload绑定,完整记录基准测试结果,包括输入配置、性能指标、正确性验证与环境信息等。
特点
该数据集的核心特点在于其系统化的四层架构——Definition、Solution、Workload与Trace——共同构建起一个完整可查询的性能数据库。Definition提供形式化的计算任务定义与参考实现,确保不同Solution之间具有可比较性;Solution允许跨语言、跨框架、跨平台的高性能实现,强调对输入输出签名的严格匹配;Workload反映真实AI推理中的多样负载特征;Trace则以不可变日志形式串联前三者,形成可审计的性能证据链。这一架构使得数据集不仅支持传统基准测试,更赋能程序化搜索与自动发现最优内核解决方案的能力。
使用方法
使用FlashInfer Trace数据集时,研究人员可基于Definitions目录中的计算规范,通过FlashInfer-Bench框架提交符合签名要求的Solution实现。Solution编写不受编程语言或框架限制,但必须提供与Definition中PyTorch数学规范等价的入口函数,并通过预收集的Workload输入进行正确性验证与性能评测。每次评测结果将以Trace形式自动保存,形成结构化日志。用户可通过遍历traces目录下的JSONL文件,或利用FlashInfer-Bench的查询接口,按Definition、Workload配置及运行环境等条件检索最优Solution,实现对内核性能的系统化比较与优化。
背景与挑战
背景概述
FlashInfer Trace数据集由FlashInfer团队于近期发布,专注于记录实际AI系统部署环境中的内核与工作负载信息。作为FlashInfer-Bench生态系统的核心组件,该数据集通过定义(Definition)、解决方案(Solution)、工作负载(Workload)和跟踪记录(Trace)四层结构,为计算内核的性能评估与优化提供了标准化基准。其研究问题聚焦于真实推理场景下高性能内核的发现与比较,旨在构建一个可查询的性能数据库,以驱动专家或自主代理系统提交最优解决方案。该数据集对AI系统工程领域具有重要影响力,为内核开发、性能基准测试及自动化优化研究提供了统一的数据基础。
当前挑战
该数据集面临多重挑战:首先,在领域问题层面,它需解决真实AI部署环境中内核性能评估的碎片化问题——现有基准缺乏对实际工作负载动态性和硬件环境差异的标准化描述,导致跨场景性能比较困难;其次,构建过程中需应对定义(Definition)的精确形式化难题,需在PyTorch数学规范与异构运行时(如CUDA、Triton)的接口间建立严格等价性,同时验证任意提交的解决方案(Solution)在多样化的工作负载(Workload)下保持功能正确性与高性能权衡;此外,跟踪记录(Trace)的原子化存储与跨平台环境一致性保障也是技术难点,需平衡详细日志记录与存储规模扩张的矛盾。
常用场景
经典使用场景
FlashInfer Trace数据集专为AI系统推理场景中的高性能计算内核评估而设计。其经典使用场景涵盖了大语言模型(LLM)推理过程中各类算子的性能基准测试,如注意力机制、归一化操作及激活函数等核心计算任务。研究者可依据数据集提供的标准化定义(Definition)与工作负载(Workload),在统一框架下对比不同内核实现(Solution)的延迟、吞吐量和精度指标,从而筛选出最优算子部署方案。该数据集尤擅长支持多框架、多硬件平台下的可复现性评测,为模型部署前的性能调优提供了标准化测试基座。
实际应用
在实际工业部署中,FlashInfer Trace数据集被广泛用于AI推理引擎的性能工程与自动化调优。云服务提供商可借此为不同GPU型号和批处理规模预筛最优内核;边缘计算场景中,该数据集帮助在资源受限设备上确定低延迟算子组合;大模型API服务商通过复现数据集中的典型工作负载,精准定位推理瓶颈并实施针对性优化。此外,基于Traces的性能数据库可驱动高性能内核的自动化搜索,支持从PyTorch、TensorRT到自定义CUDA实现的跨框架性能对比,显著降低生产环境中的性能调优成本。
衍生相关工作
该数据集孕育了多项开创性研究,包括基于强化学习的自动内核调优系统、面向稀疏注意力模式的专用算子生成器以及跨平台性能预测模型。其标准化定义体系被FlashInfer、vLLM等主流推理框架采纳为性能基准接口,衍生出FlashInfer-Bench生态系统。学术界在此基础上提出了可微分搜索空间表达方法和基于遗传算法的内核探索范式,将传统手工优化转变为数据驱动的自动化流程。这些工作共同构建了从形式化定义到最优解发现的闭环,推动AI算子编排从经验调优向可计算、可复现的科学范式演进。
以上内容由遇见数据集搜集并总结生成



