HPAI-BSC/RuC-datasets

Name: HPAI-BSC/RuC-datasets
Creator: HPAI-BSC
Published: 2026-05-05 16:08:44
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/HPAI-BSC/RuC-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

RuC是一个基于语法驱动、规则可选的基准测试生成器，能够从一组输入的硬件描述源自动生成RTL代码补全任务。它使用目标HDL语法来屏蔽语法定义的代码区域，并提示模型使用周围未屏蔽的代码作为上下文重新生成这些区域。RuC-datasets是使用RuC框架处理的设计数据集集合，用于论文中的实验。虽然RuC-cve2_b72358c7-32k和RuC-tt07-32k具有相同的模式和处理步骤，但它们源自不同的基础数据集，应视为独立的数据集。

RuC is a grammar-driven, rule-selectable benchmark generator that automatically produces RTL code-completion tasks from a set of input hardware description sources. It uses the target HDL grammar to mask syntactically defined code regions and prompts a model to regenerate them using the surrounding unmasked code as context. RuC-datasets is a collection of design datasets processed with the RuC framework and used for the experimentations in the paper. Although RuC-cve2_b72358c7-32k and RuC-tt07-32k share the same schema and preprocessing steps, they originate from different base datasets and should be treated as separate datasets.

提供机构：

HPAI-BSC

搜集汇总

数据集介绍

构建方式

RuC-datasets是经由RuC框架自动生成的高质量基准测试数据集集合，其核心构建机制依赖于语法驱动的规则选择策略。具体而言，该数据集从硬件描述语言源文件中提取语法定义的代码区域，并通过RuC框架对这些区域进行掩码处理，从而生成RTL代码补全任务。RuC-tt07-32k子集源自NotSoTiny shuttle tt07基准设计，经过筛选保留标记数小于32000的设计；而RuC-cve2_b72358c7-32k子集则基于OpenHWGroup维护的工业级RISC-V核心CVE2代码库，经vppreproc预处理后同样进行标记数过滤。每个设计项目均配备mask_idx.json和all_mask_idx.json文件，分别存储所选规则出现索引及全部候选规则索引，确保了任务生成的明确性与可重复性。

使用方法

RuC-datasets专门设计用于与RuC框架协同工作，以直接执行多种大语言模型（LLM）的推理与评估任务。用户需首先通过RuC框架加载数据集中的Verilog或SystemVerilog设计文件，并结合mask_idx.json中指定的掩码规则索引，自动生成代码补全样本。框架随后利用周围未掩码的代码作为上下文，引导模型预测被遮蔽的语法区域。评估过程完全自动化，支持对比不同模型在相同规则集下的生成准确性。此外，用户可根据需求调整规则选择参数，以探索模型在各种语法约束下的表现，从而获得对模型硬件代码理解能力的综合性度量。

背景与挑战

背景概述

随着硬件描述语言（HDL）在集成电路设计中的广泛应用，自动化代码生成与补全技术成为提升设计效率的关键方向。RuC数据集于2025年由Barcelona Supercomputing Center（BSC）的高性能人工智能（HPAI）研究团队创建，旨在解决RTL（寄存器传输级）代码补全任务的基准测试问题。该数据集基于语法驱动、规则可选的基准生成框架RuC，通过自动从硬件设计源中提取掩码区域并利用上下文恢复代码，评估大型语言模型在硬件设计领域的表现。RuC-datasets包含两个子集：RuC-tt07-32k（源自NotSoTiny shuttle tt07）和RuC-cve2_b72358c7-32k（源自OpenHWGroup的工业级RISC-V核心CVE2），均经过词汇量小于32,000标记的筛选。该数据集填补了硬件设计领域缺乏标准化代码补全评估基准的空白，为AI辅助硬件设计研究提供了重要资源。

当前挑战

RuC数据集所解决的核心领域挑战在于，现有自然语言代码补全基准无法有效处理硬件描述语言的语法复杂性和领域特异性，如Verilog和SystemVerilog中的并行执行、时序逻辑等特性。此外，硬件设计代码的注释和文档往往不足，增加了掩码区域的选择和上下文理解的难度。在构建过程中，面临两大挑战：一是如何从多样化的硬件设计中自动提取语法有效的掩码区域，RuC框架通过语法规则匹配实现这一目标，但需处理不同HDL方言的差异；二是数据集规模控制，由于训练大型语言模型需考虑资源限制，RuC强制限定每个设计令牌不超过32,000，这可能导致长设计被截断，丢失关键结构信息。这些挑战共同影响了基准的泛化能力和评估的准确性。

常用场景

经典使用场景

在硬件设计与人工智能的交叉领域中，RuC-datasets作为一款独具匠心的基准测试生成工具，为RTL级代码补全任务提供了标准化评估平台。该数据集通过语法驱动策略，自动从Verilog和SystemVerilog硬件描述源码中提取可遮蔽的代码区域，构造出兼具真实性与挑战性的掩码预测任务。研究者可借助其灵活可选的规则集合，定制多样化的测试场景，从而系统性地评估大型语言模型在硬件代码生成方面的能力。这一创新框架不仅弥合了自然语言处理与电子设计自动化之间的鸿沟，更为推动AI辅助芯片设计提供了关键的验证基础设施。

解决学术问题

RuC-datasets的诞生有效解决了硬件领域长期缺乏专业化代码补全基准的困境。传统的评估方法多聚焦于软件编程任务，难以反映硬件描述语言独特的语法结构和语义约束。该数据集通过引入语法定义掩码机制，精准刻画了RTL代码中模块实例化、信号连接、状态机转换等核心编程模式，使得研究者能够深入探究模型对硬件代码结构的理解程度。其意义在于为自动化的硬件代码生成算法提供了可复现的量化指标，推动了硬件描述语言与深度学习的深度融合，为减少人工编码错误、提升设计效率奠定了科学基础。

实际应用

在实际产业应用中，RuC-datasets赋能了基于大语言模型的智能辅助设计工具链。设计工程师可以利用该数据集训练的模型实现代码智能补全，在复杂数字系统开发时快速生成诸如接口协议、时序逻辑等高频硬件模块，显著缩短迭代周期。此外，该数据集支持对RISC-V核心等工业级项目的精准适配，其规则可选特性允许企业根据内部编码规范定制评估任务，从而在保证设计质量的同时降低验证成本。这种适应性使得数据集成为连接前沿AI研究与实际硬件开发流程的纽带，助力实现从算法原型到生产落地的平滑过渡。

数据集最近研究