codev-r1-verl
收藏CodeV-R1-VERL数据集概述
基本信息
- 数据集名称: CodeV-R1-VERL
- 版本: v1.1(过滤版)
- 许可证: CC-BY-SA-4.0
- 语言: Verilog HDL
- 任务类型: 硬件设计代码生成
- 原始来源: https://huggingface.co/datasets/zhuyaoyu/CodeV-R1-dataset
数据集统计
| 数据分割 | 样本数量 | 描述 |
|---|---|---|
| 训练集 | 2,956 | 从原始3,033个样本过滤后 |
| 验证集 | 100 | 未改变 |
| 总计 | 3,056 | 完整数据集 |
质量过滤(2025年11月)
过滤详情
- 原始数据集大小: 3,033个训练样本
- 过滤后数据集大小: 2,956个训练样本
- 移除样本: 77个(移除率2.5%)
过滤标准
-
非标准端口索引(移除41个样本)
- 使用
[0:N]而非Verilog标准[N:0]的端口声明 - 原因:工具不兼容、测试平台生成失败、代码重用问题
- 使用
-
Verilog函数(移除39个样本)
- 包含
function ... endfunction块的样本 - 原因:编译复杂性、超时问题、模拟失败
- 包含
-
重叠问题(3个样本同时存在两个问题)
数据格式
VERL训练模式
python { data_source: str, # 源标识符 prompt: [ # 用户提示 { role: str, # 消息角色 content: str # 问题描述 } ], ability: str, # 任务类别 reward_model: { style: str, # 奖励模型类型 ground_truth: bytes # 序列化真实数据 }, extra_info: { index: int # 样本索引 } }
真实数据格式
python { variant_name: { code: str, # 参考Verilog代码 input_port_width: dict, # 输入端口宽度 output_port_width: dict, # 输出端口宽度 clock_port_polarity: dict, # 时钟边沿 reset_port_polarity_sync: dict # 复位类型和极性 } }
验证与测试
测试套件结果
- 测试总数: 31个
- 通过测试: 27个(87.1%通过率)
| 类别 | 测试数 | 通过数 | 描述 |
|---|---|---|---|
| 边界情况 | 5 | 4/5 | 最小模块、大端口、宽数据路径 |
| 错误场景 | 8 | 6/8 | 语法错误、未定义信号、格式错误代码 |
| 多样化问题 | 10 | 9/10 | 整个数据集的随机样本 |
| 鲁棒性 | 5 | 5/5 | 顺序评分、一致性、边界情况 |
| 性能 | 3 | 3/3 | 时序分析、超时处理 |
性能指标
- 平均评分时间:11.46秒/测试
- 最快测试:0.58秒
- 最慢测试:60.14秒(超时情况)
- 总测试时间:497.23秒(约8.3分钟)
使用方式
加载数据集
python from datasets import load_dataset
加载训练集
dataset = load_dataset("sungyub/codev-r1-verl", split="train")
流式加载
dataset = load_dataset("sungyub/codev-r1-verl", split="train", streaming=True)
加载验证集
val_dataset = load_dataset("sungyub/codev-r1-verl", split="validation")
访问真实数据
python import pickle
sample = dataset[0] ground_truth = pickle.loads(sample[reward_model][ground_truth]) variant_name = list(ground_truth.keys())[0] variant_data = ground_truth[variant_name]
数据集质量分析
| 问题类型 | 数量 | 严重性 | 处理措施 |
|---|---|---|---|
| 非标准索引 | 41 | 严重 | 已过滤 |
| 包含函数 | 39 | 警告 | 已过滤 |
| 无模块名 | 321 | 信息 | 误报(正则限制) |
| 多模块 | 287 | 信息 | 误报(合法设计) |
| 多always块 | 2 | 信息 | 保留(无问题) |
检测到的问题总数: 714 受影响样本: 671(22.1%) 实际过滤样本: 77(2.5%)
相关数据集
- https://huggingface.co/datasets/sungyub/skywork-or1-code-verl - Python代码数据集(14,057样本)
- https://huggingface.co/datasets/sungyub/eurus-2-code-verl - 多语言代码数据集(25,276样本)
- https://huggingface.co/datasets/zhuyaoyu/CodeV-R1-dataset - 原始未过滤CodeV数据集
版本历史
- v1.1 - 2025年11月4日:过滤77个问题样本,执行全面质量分析
- v1.0 - 初始发布:3,033个训练样本,100个验证样本




