five

drkernel-validation-data

收藏
Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/hkust-nlp/drkernel-validation-data
下载链接
链接失效反馈
官方服务:
资源简介:
DR.Kernel验证数据集(KernelBench Level 2)是一个用于核生成模型验证和评估的数据集。该数据集基于KernelBench Level 2任务构建,包含100个任务样本。数据集的主要目的是评估模型在核优化任务上的性能。数据集结构包括以下字段:data_source(数据来源标签)、prompt(评估提示,包含角色和内容)、reward_model(参考元数据,包括真实实现和风格)、ability(能力标签,此处为核优化)、extra_info(问题元数据,包括名称和问题ID)。数据集以Parquet格式存储,每个样本包含详细的提示信息和参考实现。使用场景包括核生成模型的评估和性能分析。数据集要求在使用时引用原始KernelBench基准作者,并遵循MIT许可证。
提供机构:
HKUST NLP Group
创建时间:
2026-02-06
搜集汇总
数据集介绍
main_image_url
构建方式
在GPU内核生成领域,DR.Kernel验证数据集源自KernelBench Level 2任务,专门用于评估内核生成模型的性能。该数据集通过精心筛选100个独立任务构建而成,每个任务均包含用户提示与参考实现。数据以Parquet格式存储,结构清晰,字段涵盖数据来源、提示信息、奖励模型元数据、能力标签及额外问题信息,确保了评估任务的系统性与可追溯性。
特点
该数据集聚焦于内核优化能力,所有任务均标注为“kernel_optimization”,并采用规则式奖励模型风格。其用户提示长度在4302至5445字符之间,参考实现代码长度介于657至1800字符,呈现出一定的复杂度分布。每个任务具有唯一的问题ID与名称,保证了任务的独立性与多样性,为模型评估提供了丰富且具挑战性的测试场景。
使用方法
使用者可通过Hugging Face Datasets库直接加载该数据集,便捷获取结构化数据列。评估过程可借助DR.Kernel项目提供的专用脚本进行,这些脚本默认指向本数据集路径,支持对DR.Kernel模型或兼容OpenAI的后端基线进行系统化评测。数据集的标准化格式与配套工具链,为研究人员在内核生成领域的模型验证与性能对比提供了高效、可复现的实验基础。
背景与挑战
背景概述
在深度学习与高性能计算领域,GPU内核优化是提升模型推理效率的关键技术。DR.Kernel验证数据集由香港科技大学自然语言处理实验室于2026年发布,作为其研究论文《Dr.Kernel: Reinforcement Learning Done Right for Triton Kernel Generations》的配套评估资源。该数据集基于KernelBench Level 2任务构建,专注于Triton内核生成与优化,旨在评估强化学习模型在自动生成高性能GPU内核方面的能力。其核心研究问题在于解决传统手工编写内核的效率瓶颈,通过自动化方法探索计算图优化与硬件适配的协同设计,对推动编译器技术与自动化代码生成领域的发展具有显著影响力。
当前挑战
该数据集所针对的领域挑战在于GPU内核优化问题的复杂性,涉及计算并行性、内存访问模式与硬件特性之间的精细权衡。传统方法依赖专家经验,难以在多样化的算子与硬件配置中实现通用高效优化。构建过程中的挑战则体现在高质量基准实现的收集与标准化,需确保每个任务的参考实现(ground-truth)既符合功能正确性,又具备高性能特征。同时,数据集的规模与多样性需平衡,当前仅包含100个任务,可能限制了模型在更广泛算子与场景下的泛化能力评估。
常用场景
经典使用场景
在GPU加速计算领域,高效能内核代码的生成与优化是提升深度学习模型推理速度的关键环节。DR.Kernel验证数据集作为KernelBench Level 2任务的评估基准,其经典使用场景集中于对基于强化学习的Triton内核生成模型进行系统性验证与评分。研究人员利用该数据集提供的100个结构化任务,通过标准化的提示与参考实现,量化模型在GPU内核优化能力上的表现,从而推动代码生成技术在硬件感知优化方向的发展。
实际应用
在实际工程应用中,该数据集支撑了自动化GPU内核优化工具链的开发。例如,深度学习框架与编译器团队可借助该数据集训练和验证能够自动将PyTorch模型转换为高性能Triton内核的智能体。这种技术可直接应用于大模型推理加速、科学计算仿真等对计算效率有严苛要求的场景,通过生成比手工优化更具通用性的内核代码,显著降低高性能计算领域的开发门槛与时间成本。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在强化学习驱动的代码生成体系架构上。DR.Kernel论文本身提出了结合规则奖励与迭代精炼的训练范式,为后续研究奠定了方法论基础。同时,其关联项目KernelGYM构建了完整的内核生成训练与评估环境,启发了更多将程序合成、形式化验证与硬件性能建模相结合的研究。这些工作共同推动了面向异构计算设备的智能编译优化技术路线的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作