five

codev-r1-verl

收藏
Hugging Face2025-11-05 更新2025-11-06 收录
下载链接:
https://huggingface.co/datasets/sungyub/codev-r1-verl
下载链接
链接失效反馈
官方服务:
资源简介:
CodeV-R1-VERL数据集是一个高质量的Verilog代码生成问题集,每个问题都附带真实的解决方案。该数据集专门为VERL(Versatile Reinforcement Learning)训练设计。数据集包括2,956个训练示例和100个验证示例,总计3,056个示例。数据集已经过筛选,以移除有问题的样本,包括那些具有非标准端口索引和Verilog函数定义的样本。数据集遵循VERL训练模式格式,并包含全面的测试套件以验证数据集的质量。数据集根据CC-BY-SA-4.0许可证获得许可,并可用于学术目的。
创建时间:
2025-11-04
原始信息汇总

CodeV-R1-VERL数据集概述

基本信息

  • 数据集名称: CodeV-R1-VERL
  • 版本: v1.1(过滤版)
  • 许可证: CC-BY-SA-4.0
  • 语言: Verilog HDL
  • 任务类型: 硬件设计代码生成
  • 原始来源: https://huggingface.co/datasets/zhuyaoyu/CodeV-R1-dataset

数据集统计

数据分割 样本数量 描述
训练集 2,956 从原始3,033个样本过滤后
验证集 100 未改变
总计 3,056 完整数据集

质量过滤(2025年11月)

过滤详情

  • 原始数据集大小: 3,033个训练样本
  • 过滤后数据集大小: 2,956个训练样本
  • 移除样本: 77个(移除率2.5%)

过滤标准

  1. 非标准端口索引(移除41个样本)

    • 使用[0:N]而非Verilog标准[N:0]的端口声明
    • 原因:工具不兼容、测试平台生成失败、代码重用问题
  2. Verilog函数(移除39个样本)

    • 包含function ... endfunction块的样本
    • 原因:编译复杂性、超时问题、模拟失败
  3. 重叠问题(3个样本同时存在两个问题)

数据格式

VERL训练模式

python { data_source: str, # 源标识符 prompt: [ # 用户提示 { role: str, # 消息角色 content: str # 问题描述 } ], ability: str, # 任务类别 reward_model: { style: str, # 奖励模型类型 ground_truth: bytes # 序列化真实数据 }, extra_info: { index: int # 样本索引 } }

真实数据格式

python { variant_name: { code: str, # 参考Verilog代码 input_port_width: dict, # 输入端口宽度 output_port_width: dict, # 输出端口宽度 clock_port_polarity: dict, # 时钟边沿 reset_port_polarity_sync: dict # 复位类型和极性 } }

验证与测试

测试套件结果

  • 测试总数: 31个
  • 通过测试: 27个(87.1%通过率)
类别 测试数 通过数 描述
边界情况 5 4/5 最小模块、大端口、宽数据路径
错误场景 8 6/8 语法错误、未定义信号、格式错误代码
多样化问题 10 9/10 整个数据集的随机样本
鲁棒性 5 5/5 顺序评分、一致性、边界情况
性能 3 3/3 时序分析、超时处理

性能指标

  • 平均评分时间:11.46秒/测试
  • 最快测试:0.58秒
  • 最慢测试:60.14秒(超时情况)
  • 总测试时间:497.23秒(约8.3分钟)

使用方式

加载数据集

python from datasets import load_dataset

加载训练集

dataset = load_dataset("sungyub/codev-r1-verl", split="train")

流式加载

dataset = load_dataset("sungyub/codev-r1-verl", split="train", streaming=True)

加载验证集

val_dataset = load_dataset("sungyub/codev-r1-verl", split="validation")

访问真实数据

python import pickle

sample = dataset[0] ground_truth = pickle.loads(sample[reward_model][ground_truth]) variant_name = list(ground_truth.keys())[0] variant_data = ground_truth[variant_name]

数据集质量分析

问题类型 数量 严重性 处理措施
非标准索引 41 严重 已过滤
包含函数 39 警告 已过滤
无模块名 321 信息 误报(正则限制)
多模块 287 信息 误报(合法设计)
多always块 2 信息 保留(无问题)

检测到的问题总数: 714 受影响样本: 671(22.1%) 实际过滤样本: 77(2.5%)

相关数据集

  • https://huggingface.co/datasets/sungyub/skywork-or1-code-verl - Python代码数据集(14,057样本)
  • https://huggingface.co/datasets/sungyub/eurus-2-code-verl - 多语言代码数据集(25,276样本)
  • https://huggingface.co/datasets/zhuyaoyu/CodeV-R1-dataset - 原始未过滤CodeV数据集

版本历史

  • v1.1 - 2025年11月4日:过滤77个问题样本,执行全面质量分析
  • v1.0 - 初始发布:3,033个训练样本,100个验证样本
搜集汇总
数据集介绍
main_image_url
构建方式
在硬件设计自动化领域,CodeV-R1-VERL数据集通过严谨的质量筛选流程构建而成。该数据集源自原始CodeV-R1数据集,经过系统性过滤移除了77个存在问题的样本,包括41个采用非标准端口索引规范的样本和39个包含Verilog函数定义的样本。构建过程中采用多维度验证标准,通过31项测试套件确保数据可靠性,最终形成包含2,956个训练样本和100个验证样本的高质量集合,为硬件描述语言生成任务奠定坚实基础。
使用方法
使用本数据集时,研究者可通过HuggingFace标准接口加载训练集与验证集,支持流式读取以处理大规模数据。核心应用流程包括解析序列化真值数据获取参考代码实现,并利用Sandbox Fusion评估系统进行自动化验证。该系统执行完整的硬件设计验证流水线:从代码提取、模块解析到测试平台生成,最终通过Icarus Verilog编译和十万级随机测试向量仿真,输出0.0至1.0的精确评分。这种端到端的评估机制确保了生成代码的功能正确性与硬件兼容性。
背景与挑战
背景概述
随着硬件描述语言在数字电路设计中的广泛应用,Verilog代码生成成为电子设计自动化领域的关键研究方向。CodeV-R1-VERL数据集由Sung Yub Kim于2025年基于原始CodeV-R1数据集构建,专门针对VERL强化学习框架优化。该数据集聚焦硬件设计代码生成任务,包含2956个高质量训练样本和100个验证样本,覆盖同步计数器、组合逻辑等典型数字电路设计场景。通过标准化数据格式与多维度验证机制,该数据集为硬件设计自动化研究提供了重要基准,显著推动了基于强化学习的代码生成技术在电子设计领域的应用发展。
当前挑战
在硬件设计代码生成领域,Verilog语法规范性与仿真兼容性构成核心挑战。数据集构建过程中面临非标准端口索引与函数定义导致的工具链兼容问题,41个样本因采用[0:N]非常规索引引发EDA工具解析错误,39个样本因包含函数定义造成编译超时。此外,测试框架需处理复杂的时序验证,平均每项测试耗时11.46秒,最长测试达60.14秒。针对多模块设计与时钟域同步等复杂场景的评估精度提升,仍是当前亟待突破的技术难点。
常用场景
经典使用场景
在硬件描述语言研究领域,CodeV-R1-VERL数据集为Verilog代码生成任务提供了标准化的评估基准。该数据集通过2956个训练样本和100个验证样本,系统覆盖了从组合逻辑到时序电路的多样化设计场景。研究者可借助其结构化的问题描述与真实解决方案,构建端到端的硬件代码生成模型,特别适用于验证强化学习算法在硬件设计自动化中的有效性。
解决学术问题
该数据集有效解决了硬件设计自动化中的语义一致性验证难题。通过提供经过严格过滤的标准化Verilog代码样本,消除了非标准索引和函数定义导致的工具兼容性问题。其内置的Sandbox Fusion测试框架能够自动生成测试向量并执行功能仿真,为评估生成代码的功能等效性提供了可靠度量,显著提升了硬件代码生成研究的可复现性。
实际应用
在集成电路设计流程中,该数据集支撑着智能代码生成工具的开发。工程师可利用训练后的模型自动生成符合行业标准的寄存器传输级代码,大幅缩短数字电路设计周期。其涵盖的同步计数器、状态机等典型电路模块,可直接应用于处理器单元、通信接口等实际芯片设计场景,有效降低了硬件开发门槛。
数据集最近研究
最新研究方向
在硬件设计自动化领域,CodeV-R1-VERL数据集正推动基于强化学习的Verilog代码生成技术发展。该数据集通过精心筛选的2956个高质量训练样本,为VERL训练框架提供了标准化硬件描述语言生成任务。前沿研究聚焦于结合多模态奖励模型的强化学习策略,利用Sandbox Fusion验证系统实现代码功能性与语法规范性的协同优化。随着芯片设计复杂度不断提升,该数据集在加速数字电路设计流程、降低人工编码错误率方面展现出重要价值,为构建端到端的智能硬件开发工具链奠定数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作