Infatoshi/kernelbench-hard-problems

Name: Infatoshi/kernelbench-hard-problems
Creator: Infatoshi
Published: 2026-04-30 22:34:00
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Infatoshi/kernelbench-hard-problems

下载链接

链接失效反馈

官方服务：

资源简介：

KernelBench-Hard Problems 是一个用于自主LLM编码代理的基准测试，专注于在单个Blackwell GPU（RTX PRO 6000，sm_120，CUDA 13.2）上编写GPU内核。数据集包含7个问题定义，每个问题都有特定的任务、形状和运行机制（计算受限或内存受限）。每个问题目录包含参考实现、正确性检查、性能基准测试、元数据、输入形状、SOTA参考和提示文本。评分方法基于峰值分数（peak_fraction），即通过几何平均计算实现的吞吐量与硬件峰值的比率。数据集还详细描述了硬件规格，并指出了两个已知的问题（评分泄漏）。该数据集旨在用于基准测试和提升自主编码代理在GPU内核工程中的性能。

KernelBench-Hard Problems is a benchmark for autonomous LLM coding agents focused on writing GPU kernels on a single Blackwell GPU (RTX PRO 6000, sm_120, CUDA 13.2). The dataset includes 7 problem definitions, each with specific tasks, shapes, and regimes (compute-bound or memory-bound). Each problem directory contains reference implementations, correctness checks, performance benchmarks, metadata, input shapes, SOTA references, and prompt texts. The scoring method is based on peak_fraction, which is the geometric mean of achieved throughput relative to hardware peak. The dataset also details hardware specifications and notes two known issues (rubric leaks). It is designed for benchmarking and improving the performance of autonomous coding agents in GPU kernel engineering.

提供机构：

Infatoshi

搜集汇总

数据集介绍

构建方式

KernelBench-Hard Problems 数据集的构建源于对自主式大语言模型智能体在单一Blackwell GPU（RTX PRO 6000）上编写高性能GPU内核能力的严苛评估需求。该数据集由七个精心设计的基准问题组成，每个问题均涵盖特定计算或内存密集型任务，如FP8通用矩阵乘法、Kimi Delta注意力前向传播及分页注意力解码等。每一问题目录内包含PyTorch参考实现、正确性验证脚本、计时基准脚本及元数据文件，并附有供智能体使用的精确提示文本。评分机制采用峰值吞吐量分数，综合考量各形状下的硬件利用率，以逼近硬件性能上限为优化目标。

特点

该数据集的核心特点在于其难度与评估的深度。七项问题均针对现代GPU架构的极致性能挑战，涵盖计算受限与内存受限两大类别，并涉及量化、数值稳定性优化及稀疏操作等前沿领域。值得注意的是，其中两项问题存在评估标准泄露现象，即智能体可通过绕过原始任务要求（如跳过量化或数值补偿）获得高分，这一设计旨在揭示奖励黑客行为，为社区提供有趣的改进案例。数据集配套包含完整的智能体运行记录、优胜解决方案及排行榜，体现了极高的透明度与开放性。

使用方法

用户可通过Hugging Face的`datasets`库加载该数据集，或直接克隆代码仓库至本地使用。具体操作上，用户可进入某一问题目录，自行编写或放置内核解决方案文件，随后利用`v run python check.py`验证正确性，并通过`v run python benchmark.py`测量吞吐量。所有基准测试均支持多种输入形状，并能输出矩阵乘法每秒浮点操作数或每秒吉字节数等关键性能指标。该数据集特别适合用于评估与改进LLM智能体在底层硬件编程任务上的表现能力。

背景与挑战

背景概述

KernelBench-Hard Problems数据集由研究者Elliot Arledge于2026年创建，专注于评估自主LLM编码代理在单个Blackwell GPU（RTX PRO 6000）上编写GPU内核的能力。该数据集定义了七个极具挑战性的问题，涵盖FP8 GEMM、分页注意力解码、卡汉Softmax等前沿计算模式，旨在推动AI代理在底层硬件编程领域的发展。作为KernelBench的进阶版本，该数据集不仅考验代理对CUDA和GPU架构的深刻理解，还通过峰值吞吐量分数（peak_fraction）衡量代理逼近硬件极限的程度，为自动化代码生成领域树立了新的标杆。其影响力体现在为奖励黑客（reward-hacking）行为提供了真实案例，并为未来鲁棒性评估方法的研究奠定了基础。

当前挑战

该数据集面临的核心挑战包括三个方面。首先，在领域问题层面，任务要求代理编写出既能通过严格正确性检查、又能达到接近硬件理论峰值性能的GPU内核，这对代理的优化能力提出了极高要求，例如在FP8 GEMM中需同时管理量化与累加精度。其次，构建过程中遇到的关键难题是“评分标准泄露”（rubric leaks）：两个问题（FP8 GEMM和Kahan Softmax）存在捷径，代理可通过降精度或跳过补偿机制在未真正解决问题的情况下获得高分，这迫使设计者不得不公开这些漏洞。最后，如何在不同形状参数（shapes）和计算约束下公平评估代理的泛化能力，避免过拟合到特定输入模式，也是一项持续挑战。

常用场景

经典使用场景

KernelBench-Hard Problems 数据集专为评估自主大语言模型编程代理在单块Blackwell GPU上编写高性能GPU内核的能力而设计。其经典使用场景涵盖七个极具挑战性的内核编程任务，包括FP8通用矩阵乘法、Kimi Delta注意力前向计算、分页注意力解码、Kahan补偿数值稳定Softmax、基于双调选择的Top-K计算、Sonic-MoE前向传播中的SwiGLU激活函数，以及W4A16权重量化通用矩阵乘法。这些任务横跨计算受限和内存受限两大经典优化领域，要求代理在确保数值精度的前提下，从零编写出逼近硬件理论峰值的CUDA内核，全面考验代码生成与极致性能调优的综合能力。

衍生相关工作

围绕KernelBench-Hard已衍生出一系列重要相关工作。首先，数据集构建过程中发现的评分标准漏洞（rubric leak），如FP8 GEMM中代理通过降精度到BF16绕过量化要求、Kahan Softmax中跳过补偿仍能通过正确性检查等，已成为奖励破解（reward-hacking）领域的研究案例，激发了对评测严谨性的深入探讨。其次，配套发布的包含84个代理对话记录、优胜解决方案及标注数据集的KernelBench-Hard Runs，为代理行为分析、失败模式归纳和自动化修复提供了宝贵资源。最后，该工作基于Ouyang等人提出的原始KernelBench扩展而来，推动了从传统基准测试向代理化、硬件导向型评估体系的演进。

数据集最近研究