five

Ascend-COT-v2-json

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/AscendKernelGen/Ascend-COT-v2-json
下载链接
链接失效反馈
官方服务:
资源简介:
AscendKernelGen/Ascend-COT-v2-json数据集是Ascend-CoT数据集的一个子集,包含高质量的领域特定数据,结合了基于文档的推理、从实际NPU内核代码中提取的以代码为中心的推理,以及捕捉低级别NPU编程所需的结构化逻辑和严格约束的一般推理链。该数据集专为华为Ascend硬件上的NPU编程设计,适用于代码生成任务,特别是NPU内核生成。数据集采用Apache-2.0许可,支持英文和中文,并包含Chain-of-Thought (CoT)推理。

The AscendKernelGen/Ascend-COT-v2-json dataset is a subset of the Ascend-CoT dataset, containing high-quality domain-specific data that combines document-based reasoning, code-centric reasoning extracted from actual NPU kernel code, and general reasoning chains that capture the structured logic and strict constraints required for low-level NPU programming. This dataset is specifically designed for NPU programming on Huawei Ascend hardware and is suitable for code generation tasks, particularly NPU kernel generation. The dataset is licensed under Apache-2.0, supports both English and Chinese, and includes Chain-of-Thought (CoT) reasoning.
创建时间:
2026-04-10
原始信息汇总

AscendKernelGen/Ascend-COT-v2-json 数据集详情

数据集概述

  • 数据集名称:AscendKernelGen/Ascend-COT-v2-json
  • 语言:英语(en)、中文(zh)
  • 许可证:Apache-2.0
  • 任务类型:文本生成(text-generation)
  • 标签:代码生成(code-generation)、NPU、思维链(CoT)、昇腾(ascend)

数据集内容

该数据集是完整 Ascend-CoT 数据集的一个子集,完整数据集将分阶段发布。Ascend-CoT 数据集是一个高质量、领域特定的数据集,融合了从真实内核实现中提取的思维链(Chain-of-Thought, CoT)推理。它包含三种推理类型:

  • 基于文档的推理
  • 从实际NPU内核代码中提取的以代码为中心的推理
  • 通用推理链:捕捉华为昇腾硬件上低级NPU编程所需的结构化逻辑和严格约束

相关资源

背景框架:AscendKernelGen (AKGen)

该数据集作为 AscendKernelGen (AKGen) 框架的一部分,通过数据构建、训练和评估的闭环系统,弥合通用代码生成与硬件特定编程之间的差距。核心创新包括:

  1. Ascend-CoT 数据集:如上所述,融合CoT推理的高质量领域特定数据集
  2. 领域自适应后训练:两阶段优化过程,产出 KernelGen-LM。首先采用基于错误推导监督的监督微调(SFT),随后使用基于执行正确性和性能信号的直接偏好优化(DPO)进行强化学习(RL)
  3. 硬件接地评估:使用 NPUKernelBench 基准,在实际昇腾硬件上评估编译成功率、功能正确性和性能(延迟)

引用

bibtex @article{cao2026ascendkernelgen, title={AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units}, author={Xinzi Cao and Jianyang Zhai and Pengfei Li and Zhiheng Hu and Cen Yan and Bingxu Mu and Guanghuan Fang and Bin She and Jiayu Li and Yihan Su and Dongyang Tao and Xiansong Huang and Fan Xu and Feidiao Yang and Yao Lu and Chang-Dong Wang and Yutong Lu and Weicheng Xue and Bin Zhou and Yonghong Tian}, journal={arXiv preprint arXiv:2601.07160}, year={2026}, url={https://arxiv.org/abs/2601.07160} }

搜集汇总
数据集介绍
main_image_url
构建方式
在面向华为昇腾硬件的底层NPU编程领域,通用代码生成往往因缺乏硬件专属的约束逻辑而面临严峻挑战。为弥合这一鸿沟,Ascend-COT-v2-json数据集应运而生,它作为Ascend-CoT全集的一个子集,聚焦于高质量且具备领域特异性的链式推理(Chain-of-Thought)数据构建。具体而言,该数据集的构建融合了三种精妙推理路径:基于文档的推理链条、从真实NPU内核代码中提炼的代码中心推理,以及捕获低层级编程中结构化逻辑与严格约束的通用推理链。这类多源推理线索交织的设计,旨在为模型提供硬件编程所需的缜密思考范本。
特点
该数据集的核心特点在于其卓越的领域适配性与推理多样性。首先,它并非泛化的推理数据集,而是深耕于华为昇腾NPU的内核编写场景,通过融合文档、真实代码及通用约束三种推理类型,赋予了数据高度的专业性与启发性。其次,数据集与AscendKernelGen框架深度耦合,支撑了从监督微调(SFT)到基于执行正确性与性能信号的直接偏好优化(DPO)两阶段训练,使得产出的KernelGen-LM模型在复杂等级的内核生成任务上,相较于Qwen3、Llama3.1等通用模型展现出质的飞跃。
使用方法
该数据集主要面向文本生成与代码生成任务,尤其适用于需要在昇腾硬件上进行NPU内核开发的微调场景。用户可将其直接用于大语言模型的监督微调(SFT),利用其中蕴含的结构化推理链引导模型学习硬件专属的编程逻辑。进阶应用则引入强化学习阶段,结合硬件实际的编译成功、功能正确性与延迟性能作为奖励信号,通过直接偏好优化(DPO)进一步精炼模型。数据以标准JSON格式提供,兼容主流训练框架,便于研究者无缝集成至其模型训练流水线中。
背景与挑战
背景概述
升腾COT-v2数据集由华为及其合作研究机构于2026年发布,旨在应对神经处理单元(NPU)底层编程中代码生成质量低下的核心问题。该数据集由Xinzi Cao、Jianyang Zhai等学者主导构建,融合了基于文档推理、真实NPU内核代码推理以及通用推理链的多维度思维链(Chain-of-Thought)数据,为大型语言模型在硬件特定编程领域的应用提供了高质量的训练资源。作为AscendKernelGen框架的关键组成部分,该数据集显著提升了复杂内核的生成性能,在诸如Qwen3、Llama3.1等通用模型完全失效的任务上取得了突破性进展,对推动AI算力芯片的自动化编程具有里程碑式的影响力。
当前挑战
该数据集面临的核心挑战在于,现有通用代码生成模型缺乏对特定硬件架构(如华为升腾NPU)的深度理解,导致生成的代码存在API误用、数值计算错误等致命缺陷。构建过程中,研究人员需从真实的内核代码中提取结构化的逻辑与严格约束,同时整合文档知识和通用推理链,这面临数据异构性高、质量标注困难的难题。此外,确保数据集能够支持监督微调和强化学习的双阶段优化,并最终在真实硬件上实现编译通过、功能正确与低延迟的综合目标,构成了技术实现上的巨大挑战。
常用场景
经典使用场景
在人工智能与硬件协同设计的前沿领域,面向昇腾神经处理单元的低级内核代码生成是一项极具挑战性的任务。Ascend-COT-v2-json数据集凭借其融合了文档推理、真实内核代码推理与通用推理链的思维链结构,成为训练大型语言模型掌握硬件感知编程能力的经典资源。研究者通常利用该数据集对基座模型进行领域自适应后训练,通过监督微调与强化学习的组合策略,使模型能够生成符合昇腾NPU底层约束的高质量算子内核代码。这一过程不仅提升了模型对硬件指令集与内存模型的深度理解,还使其在面对复杂多核并行任务时展现出优于通用代码模型的推理与生成能力,从而成为硬件专用代码生成领域不可或缺的基石。
实际应用
在实际产业应用中,Ascend-COT-v2-json数据集赋能了大模型在昇腾芯片上的算子自动开发流程,显著降低了人工编写高效内核代码的时间与技术门槛。开发者可以基于在该数据集上微调得到的模型,快速生成针对特定神经网络层的高性能算子,并直接部署于真实昇腾硬件上进行编译与运行时验证。该数据集还支撑了基于执行反馈的优化闭环,使得生成的代码在功能正确性之外,还能依据实际延迟指标进行迭代调整,从而服务于云计算中心、智能终端设备及自动驾驶等对实时性与能效比有严苛要求的场景,展现了从数据到硬件的端到端生产力提升。
衍生相关工作
围绕Ascend-COT-v2-json数据集,学术界已衍生出一系列具有深远影响的经典工作。最核心的是AscendKernelGen框架本身,它提出了一种包含数据构建、领域后训练与硬件评估的闭合循环系统,为硬件特定代码生成确立了系统化范式。此外,基于该数据集训练的KernelGen-LM模型被广泛应用于对比实验,用以验证思维链推理在不同硬件平台泛化能力与迁移学习效果上的独特价值。伴随数据集的开源,NPUKernelBench基准成为评估硬件级代码生成性能的标准测试集,促使后续研究进一步探索多任务学习、在线强化微调等前沿方向,不断拓展异构计算自动化编程的学术边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作