verixa-dataset
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/vyomaalabs/verixa-dataset
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为“UVM Testbench Dataset for LLM Fine-Tuning”,是首个公开可用的、专注于UVM(通用验证方法学)的LLM微调数据集,旨在服务于硬件验证任务,特别是针对UVM/SystemVerilog代码生成的LLM微调。它包含1,314个从六个主要开源芯片设计仓库(包括Caliptra、CORE-V、OpenTitan、Ibex、CVA6和VeeR)中提取的UVM SystemVerilog测试平台组件。数据被格式化为指令-响应对,其中“instruction”字段是请求生成特定UVM组件的自然语言指令,“response”字段是对应的完整SystemVerilog UVM源代码。每个样本还包含元数据字段,用于标识组件类型(如代理、环境、序列、测试等,共10种,其中代理和环境占比最高)、所验证的协议或接口(共38种,涵盖RISC-V、AHB、AXI、SHA/HMAC/KMAC、TileLink等多种硬件协议)以及源代码仓库。数据集总大小约为7MB,遵循Apache-2.0许可证。预期用途包括:微调LLMs以生成UVM/SystemVerilog代码、对模型进行指令调优以从自然语言规范生成验证IP、进行LLM辅助硬件验证的研究,以及为UVM任务上的代码生成模型建立基准。构建过程包括仓库选择、文件发现、内容提取、基于正则表达式的分类和协议检测、哈希去重、协议感知的自然语言指令生成以及质量过滤(如移除过短或过长的文件)。局限性包括偏向OpenTitan/Caliptra生态系统的模式、某些协议检测模糊、未进行代码功能验证、指令为模板生成而非人工编写,以及序列项和记分板样本数量有限。
This dataset, named UVM Testbench Dataset for LLM Fine-Tuning, is the first publicly available dataset focused on UVM (Universal Verification Methodology) for LLM fine-tuning. It aims to serve hardware verification tasks, specifically for LLM fine-tuning targeting UVM/SystemVerilog code generation. The dataset contains 1,314 UVM SystemVerilog testbench components extracted from six major open-source chip design repositories (including Caliptra, CORE-V, OpenTitan, Ibex, CVA6, and VeeR). The data is formatted as instruction-response pairs, where the instruction field is a natural language instruction requesting the generation of a specific UVM component, and the response field is the corresponding complete SystemVerilog UVM source code. Each sample also includes metadata fields identifying the component type (e.g., agent, environment, sequence, test, etc., 10 types in total, with agents and environments being the most common), the protocol or interface being verified (38 types in total, covering various hardware protocols such as RISC-V, AHB, AXI, SHA/HMAC/KMAC, TileLink), and the source code repository. The total size of the dataset is approximately 7MB, and it is licensed under Apache-2.0. Intended uses include: fine-tuning LLMs to generate UVM/SystemVerilog code, instruction-tuning models to generate verification IP from natural language specifications, conducting research on LLM-assisted hardware verification, and establishing benchmarks for code generation models on UVM tasks. The construction process involves repository selection, file discovery, content extraction, regex-based classification and protocol detection, hash deduplication, protocol-aware natural language instruction generation, and quality filtering (e.g., removing files that are too short or too long). Limitations include a bias towards the OpenTitan/Caliptra ecosystem, ambiguous protocol detection for some cases, lack of functional verification of the code, instructions being template-generated rather than human-written, and limited samples for sequences and scoreboards.
创建时间:
2026-05-08
原始信息汇总
数据集概述
此数据集包含 1,314 个 UVM (Universal Verification Methodology) SystemVerilog 测试台组件,这些组件提取自主要的开源芯片设计仓库。该数据集被格式化为指令-响应对,适用于对大型语言模型进行硬件验证任务的微调。这是首个公开可用的、面向 LLM 训练的 UVM 数据集。
数据集摘要
| 项目 | 数值 |
|---|---|
| 总样本数 | 1,314 |
| 独特协议/接口 | 38 |
| 来源仓库 | 6 |
| 文件大小 | 约 7 MB |
| 许可证 | Apache-2.0(所有来源仓库) |
组件类型分布
| 组件 | 数量 | 百分比 |
|---|---|---|
| Agent | 381 | 29.0% |
| Environment | 369 | 28.1% |
| Sequence | 223 | 17.0% |
| Test | 94 | 7.2% |
| Monitor | 81 | 6.2% |
| Driver | 80 | 6.1% |
| Sequencer | 39 | 3.0% |
| Scoreboard | 25 | 1.9% |
| Coverage | 20 | 1.5% |
| Sequence Item | 2 | 0.2% |
涵盖的协议/接口
按样本数排名靠前的协议:
- General UVM (292) — 基础库/可重用组件
- RISC-V Core (269) — 处理器验证 (CV32E40P/S/X, CVA6, Ibex)
- SoC Interface/Mailbox (145) — Caliptra SoC 接口
- AHB (74) — AMBA AHB 总线
- AXI (59) — AMBA AXI 总线
- SHA/HMAC/KMAC (87) — 加密哈希引擎
- TileLink (36) — SiFive TileLink 总线
- Cache (32) — 指令/数据缓存
- JTAG (30) — 调试接口
- SPI (23) — 串行外设
- I2C (16) — 集成电路间总线
- UART (12) — 串行通信
- USB (10) — 通用串行总线
- 及其他 25 种更多协议...
来源仓库
| 仓库 | 样本数 | 描述 |
|---|---|---|
| chipsalliance/caliptra-rtl | 511 | CHIPS Alliance Caliptra 信任根 |
| openhwgroup/core-v-verif | 398 | CORE-V RISC-V 验证 |
| lowRISC/opentitan | 250 | OpenTitan 安全芯片 |
| lowRISC/ibex | 89 | Ibex RISC-V 核心 |
| openhwgroup/cva6 | 60 | CVA6 RISC-V 处理器 |
| chipsalliance/Cores-VeeR-EL2 | 6 | VeeR RISC-V 核心 |
数据集字段
| 字段 | 类型 | 描述 |
|---|---|---|
instruction |
字符串 | 请求 UVM 组件的自然语言指令 |
response |
字符串 | 完整的 SystemVerilog UVM 源代码 |
component_type |
字符串 | UVM 组件类别 (agent/driver/monitor/sequence/env/test/scoreboard/coverage/sequencer/seq_item) |
protocol |
字符串 | 正在验证的协议或接口 |
source_repo |
字符串 | 代码来源的 GitHub 仓库 |
预期用途
- 用于 UVM/SystemVerilog 代码生成的微调大型语言模型
- 训练模型以根据自然语言规范生成验证 IP 的指令微调
- 关于 LLM 辅助硬件验证的研究
- 在 UVM 任务上对代码生成模型进行基准测试
构建方法
- 仓库选择: 针对具有广泛 UVM 测试台的开源芯片设计仓库
- 文件发现: 使用 GitHub Tree API 在 DV(设计验证)目录中查找符合 UVM 组件模式的
.sv/.svh文件 - 内容提取: 通过 GitHub raw 端点下载原始文件内容
- 分类: 基于正则表达式的 UVM 组件类型分类(扩展模式)和协议检测
- 去重: 基于前 10 行非注释行的哈希去重
- 指令生成: 针对每个组件类型和协议的、感知协议的自然语言指令生成
- 质量过滤: 移除小于 200 字符或大于 50KB 的文件,验证 UVM 内容的存在性
局限性
- 偏向于 OpenTitan/Caliptra 生态系统模式
- 某些协议检测不明确的场景被标记为 "General UVM"
- 代码未经功能验证
- 指令是模板生成的,非人工编写
- seq_item 和 scoreboard 的代表性有限
许可证
所有源代码均根据其各自仓库的 Apache-2.0 许可证授权。
搜集汇总
数据集介绍

构建方式
该数据集的构建遵循一套严谨的自动化流程。首先,从ChipsAlliance、OpenHW Group及lowRISC等知名开源芯片设计仓库中筛选出包含大量UVM测试平台的代码库。利用GitHub的Tree API精准定位设计验证目录下的SystemVerilog源文件,并通过正则表达式对UVM组件类型(如代理器、驱动器、监视器)及所验证的协议(如SPI、AXI)进行分类标记。随后,通过哈希去重与长度过滤机制剔除低质量与重复样本,再基于组件类型与协议信息自动生成对应的自然语言指令,最终形成指令-代码响应对(instruction-response pairs),完成数据集的标准化构造。
特点
本数据集作为首个面向LLM训练的UVM专用公开数据集,具备鲜明的专业性与结构化特征。其核心亮点在于涵盖了38种独特协议或接口,从通用UVM库到RISC-V内核、加密引擎及各种AMBA总线协议,展现了极高的协议覆盖广度。数据集中1314个样本严格按UVM组件类型分类,包括代理器、环境、序列、测试等十大类别,分布均衡且各有侧重。每条记录均包含清晰的指令、完整的SystemVerilog代码、组件类别及协议标签,为模型提供了高度对齐的监督学习信号,尤其适用于硬件验证领域的代码生成任务。
使用方法
该数据集的使用方式极为简洁,完美融入了现代机器学习工作流。用户可通过HuggingFace的datasets库,仅需调用一条命令`load_dataset('vyomaalabs/verixa-dataset')`,即可一键加载整个数据集。加载后的数据以标准格式存储,每条样本都包含'instruction'与'response'字段,可直接用于大语言模型的监督微调或指令微调。开发者无需繁琐的预处理,便能利用这些专业的UVM代码对模型进行针对性训练,使其学会从自然语言描述生成符合硬件验证要求的SystemVerilog测试组件,从而赋能LLM驱动的硬件验证辅助工具研发。
背景与挑战
背景概述
随着硬件设计复杂度的日益攀升,通用验证方法学(UVM)已成为芯片验证领域的黄金标准,但其专业门槛高、代码构建繁琐的特点长期制约着验证效率的提升。由Vyoma Labs主导构建的Verixa-Dataset于2024年首次发布,从Caliptra、OpenTitan、CORE-V等六大开源芯片仓库中系统性地提取了1314个UVM SystemVerilog测试台组件,覆盖38种协议接口,涵盖从Agent到Coverage的十种组件类型。该数据集以指令-响应对的形式构建,旨在为大语言模型在硬件验证任务上的微调提供专用语料,开创性地将自然语言指令与验证IP代码生成相联结,为自动化验证流程的探索奠定了数据基础。
当前挑战
Verixa-Dataset所解决的领域核心挑战在于弥合自然语言描述与UVM组件代码生成之间的语义鸿沟,使大模型能够理解诸如“为SPI协议编写一个UVM Agent”这类抽象指令并输出可用的SystemVerilog代码。数据集构建过程中面临多重技术难题:首先,从庞大仓库中自动定位UVM组件文件并准确分类需依赖精细的正则匹配策略;其次,需确保从不同仓库抽取的代码在编码风格与验证范式上的统一性;最后,由于部分协议的语义特征模糊,存在协议检测歧义导致标签泛化(如“General UVM”),同时指令生成基于模板而非人工标注,限制了自然表达的多样性,数据集在Scoreboard与Sequence Item等低频组件上的稀疏分布进一步影响了模型对完整验证场景的学习效果。
常用场景
经典使用场景
Verixa数据集作为首个面向UVM(统一验证方法学)的指令微调数据集,其经典场景聚焦于利用自然语言描述自动生成SystemVerilog验证代码。该数据集包含1,314个来自开源芯片设计库的UVM测试台组件样本,覆盖agent、driver、monitor等十类验证组件及38种协议接口。研究者通过输入诸如'为SPI协议编写一个UVM agent'的指令,即可驱动模型生成对应完整代码,从而在硬件验证领域实现从规范到验证IP的自动化映射。
实际应用
在实际芯片设计流程中,Verixa数据集可被用于微调语言模型,以加速复杂系统级芯片(SoC)的验证环境搭建。例如,工程师能够快速生成RISC-V处理器核、AMBA总线或加密引擎等IP的UVM测试台组件。该数据集源自Caliptra、OpenTitan等工业级开源项目,确保了产出代码的架构兼容性与工业实用性,从而显著缩短验证周期的同时降低入门门槛。
衍生相关工作
围绕Verixa数据集,衍生出了一系列推动硬件验证智能化的研究工作。其一是基于检索增强生成(RAG)的UVM代码自动补全系统,利用数据集中38种协议的组件库提升生成准确性;其二是面向验证覆盖率驱动的序列生成器微调方法,利用scoreboard与coverage组件数据优化测试质量。此外,该数据集也被用于构建跨平台验证IP迁移工具,实现了CORE-V与Caliptra生态下验证组件的风格适配与复用。
以上内容由遇见数据集搜集并总结生成



