Ascend-COT-v2-packed

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/AscendKernelGen/Ascend-COT-v2-packed

下载链接

链接失效反馈

官方服务：

资源简介：

AscendKernelGen/Ascend-COT-v2-packed数据集是Ascend-CoT数据集的一个子集，该数据集将分阶段发布。Ascend-CoT数据集是一个高质量、领域特定的数据集，结合了从真实世界内核实现中提取的思维链（CoT）推理。它融合了三种推理类型：基于文档的推理、从实际NPU内核代码中提取的以代码为中心的推理，以及捕捉低级别NPU编程所需的结构化逻辑和严格约束的通用推理链。该数据集是AscendKernelGen (AKGen) 框架的一部分，旨在通过数据构建、训练和评估的闭环系统，弥合通用代码生成与硬件特定编程之间的差距。数据集的应用场景包括低级别NPU编程、代码生成任务，以及与华为Ascend硬件相关的特定领域编程任务。

The AscendKernelGen/Ascend-COT-v2-packed dataset is a subset of the Ascend-CoT dataset, which will be released in phases. The Ascend-CoT dataset is a high-quality, domain-specific dataset that combines Chain-of-Thought (CoT) reasoning extracted from real-world kernel implementations. It integrates three types of reasoning: document-based reasoning, code-centric reasoning extracted from actual NPU kernel code, and general reasoning chains that capture the structured logic and strict constraints required for low-level NPU programming. This dataset is part of the AscendKernelGen (AKGen) framework, aiming to bridge the gap between general-purpose code generation and hardware-specific programming through a closed-loop system of data construction, training, and evaluation. The datasets application scenarios include low-level NPU programming, code generation tasks, and domain-specific programming tasks related to Huawei Ascend hardware.

创建时间：

2026-04-10

原始信息汇总

数据集概述：AscendKernelGen/Ascend-COT-v2-packed

基本信息

数据集名称: AscendKernelGen/Ascend-COT-v2-packed
语言: 英语（en）、中文（zh）
许可协议: Apache-2.0
任务类别: 文本生成（text-generation）
标签: 代码生成（code-generation）、思维链（cot）、NPU

数据集内容与特点

来源: 该数据集是完整 Ascend-CoT 数据集的一个子集，完整数据集将分阶段发布。
核心特性:
- 高质量、领域特定: 专注于华为昇腾（Ascend）硬件的底层NPU编程。
- 融入思维链（Chain-of-Thought, CoT）推理: 数据基于真实世界的内核实现生成。
- 三种推理类型:
  1. 基于文档的推理: 从技术文档中提取。
  2. 代码中心推理: 从实际的NPU内核代码中提取。
  3. 通用推理链: 捕捉底层NPU编程所需的结构化逻辑和严格约束。

关联项目与资源

技术报告: 论文《AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units》发表在arXiv上，地址为 https://huggingface.co/papers/2601.07160。
评估框架: NPUKernelBench 评估框架开源在GitHub上，地址为 https://github.com/weich97/NPUKernelBench。

背后的框架（AscendKernelGen / AKGen）

该数据集是 AscendKernelGen (AKGen) 框架的一部分，该框架通过数据构建、训练和评估的闭环系统，弥合通用代码生成与硬件特定编程之间的差距。关键创新包括：

Ascend-CoT数据集: 提供高质量的领域特定数据，融合三种推理类型。
领域自适应后训练（Domain-Adaptive Post-Training）: 两步优化过程，生成 KernelGen-LM 模型。
- 第一步: 监督微调（SFT），利用错误驱动的监督（纠正API误用和数值错误）。
- 第二步: 基于执行正确性和性能信号的直接偏好优化（DPO）强化学习。
硬件接地评估: 通过 NPUKernelBench 在真实昇腾硬件上进行验证，评估编译成功、功能正确性和性能（延迟）。
性能表现: 在复杂的Level-2内核任务上，相比基线模型（如Qwen3、Llama3.1）有显著提升，并能有效解决通用模型完全失败的任务。

引用信息

论文引用: bibtex @article{cao2026ascendkernelgen, title={AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units}, author={Xinzi Cao and Jianyang Zhai and Pengfei Li and Zhiheng Hu and Cen Yan and Bingxu Mu and Guanghuan Fang and Bin She and Jiayu Li and Yihan Su and Dongyang Tao and Xiansong Huang and Fan Xu and Feidiao Yang and Yao Lu and Chang-Dong Wang and Yutong Lu and Weicheng Xue and Bin Zhou and Yonghong Tian}, journal={arXiv preprint arXiv:2601.07160}, year={2026}, url={https://arxiv.org/abs/2601.07160} }

搜集汇总

数据集介绍

构建方式

Ascend-COT-v2-packed 数据集源自 AscendKernelGen 框架，旨在弥合通用代码生成与硬件特定编程之间的鸿沟。该数据集通过从真实的华为昇腾 NPU 内核实现中提取链式推理（Chain-of-Thought, CoT）精心构建而成。其构建过程融合了三种推理类型：基于文档的推理、从实际 NPU 内核代码中提炼的以代码为中心的推理，以及捕捉低层 NPU 编程所需结构化逻辑与严格约束的通用推理链。数据集的构建采用闭环系统，涵盖数据构建、模型训练与评估，确保数据的高质量与领域特异性。

使用方法

使用 Ascend-COT-v2-packed 数据集时，研究者可将其作为领域自适应后训练的核心资源。首先，采用监督微调（SFT）阶段，利用错误推导的监督信息（如纠正 API 误用与数值错误）来优化基础模型。随后，通过直接偏好优化（DPO）进行强化学习（RL），依赖执行驱动的正确性与性能信号进一步微调模型。最终得到 KernelGen-LM 模型，并可借助 NPUKernelBench 评估框架，在真实昇腾硬件上验证编译成功率、功能正确性与延迟性能。该数据集可直接用于文本生成任务的训练与评估。

背景与挑战

背景概述

随着人工智能芯片的快速发展，面向神经处理单元（NPU）的底层算子（kernel）生成成为大语言模型在代码生成领域的重要应用方向。Ascend-COT-v2-packed数据集由华为昇腾团队与中山大学等机构于2026年联合创建，核心研究人员包括曹欣策、翟剑阳等，旨在解决通用大语言模型在NPU特定硬件编程中的失效问题。该数据集融合了基于文档的推理、真实NPU kernel代码推理以及通用推理链，通过链式思维推理捕获底层编程的结构化逻辑与严格约束，为领域自适应后训练提供了高质量的数据基础。其配套的NPUKernelBench评估基准和KernelGen-LM模型在复杂算子生成任务上取得了显著提升，对推动AI芯片编译器与代码生成技术的交叉研究具有深远影响力。

当前挑战

该数据集所解决的领域核心挑战在于通用代码生成模型无法胜任硬件特定编程，在NPU kernel生成中常出现API误用、数值精度错误和性能低下等问题。构建过程中面临多重技术难点：首先，需要从真实昇腾硬件上的kernel实现中提取结构化的链式推理链，这要求对底层硬件的严格约束有深刻理解；其次，如何将文档、代码和逻辑推理三种不同形式的推理路径统一整合为高质量的训练样本，同时保证数据的正确性与多样性；此外，由于NPU架构的封闭性，收集和标注真实kernel数据面临版权和安全风险，需谨慎设计数据清洗与脱敏策略。

常用场景

经典使用场景

Ascend-COT-v2-packed数据集最经典的用途在于驱动面向华为昇腾NPU硬件的底层内核代码生成任务。该数据集融合了链式思维推理，包含文档推理、真实NPU内核代码推理以及通用推理链三重要素，为大语言模型提供了从高层语义到低层硬件编程的完整逻辑映射。研究者可将此数据集用于对通用代码生成模型进行领域自适应微调，使其掌握NPU编程中严格的结构约束与硬件指令集语义，进而生成编译通过且功能正确的高性能内核代码。这一过程尤其适用于处理中等至高复杂度等级的内核生成任务，弥补了通用模型在硬件专属编程场景中的能力空白。

解决学术问题

该数据集系统性解决了大语言模型在硬件特定编程领域中的两大核心学术难题：其一，通用模型缺乏对NPU底层编程范式与硬件约束的理解，导致生成的代码往往编译失败或功能错误；其二，现有数据集多依赖文本或伪代码，缺乏可执行验证的真实硬件反馈信号。Ascend-COT-v2-packed通过引入链式思维推理与真实内核代码的标注对齐，使模型能够学习从问题描述到硬件指令的因果逻辑链条。其意义在于推动了代码生成从通用范式向硬件专属范式的跨越，为AI辅助芯片编程奠定了可验证、可闭环的学术基础，并显著提升了低层系统软件自动化的研究高度。

实际应用

在实际工业场景中，基于Ascend-COT-v2-packed训练的模型可被部署于昇腾NPU开发环境，辅助工程师高效撰写与调试底层计算内核。具体应用包括自动生成算子实现代码、修复API误用与数值精度错误，以及优化内核执行延迟。例如，在深度神经网络算子的开发中，模型能够依据算子数学描述直接生成经过编译验证的TikCoder或Ascend C代码，大幅缩短从设计到上板的迭代周期。此外，该数据集还可用于构建代码质量审查工具，自动识别内核中潜在的硬件兼容性风险，从而降低对资深硬件编程专家的依赖，提升芯片生态的软件生产力。

数据集最近研究