RTL_verilog_synthetic_simulated
收藏Hugging Face2025-05-31 更新2025-06-01 收录
下载链接:
https://huggingface.co/datasets/sonyashijin/RTL_verilog_synthetic_simulated
下载链接
链接失效反馈官方服务:
资源简介:
这是一个合并并去重的RTL Verilog代码合成模拟数据集,它整合了来自Claude 3.7和Claude 4数据集中的Verilog代码示例,仅保留了关键的列和成功的模拟示例。数据集通过筛选成功的模拟(`simulation_status='PASS'` 或 `simulation_success=True`),并使用MinHash方法以0.8的相似度阈值去重。数据集包含316个示例,其中14个来自Claude 3.7,302个来自Claude 4,去重后移除了12个重复示例。每个示例都包含Verilog RTL代码、用户提示/问题描述、测试平台代码和模拟成功标志位。
创建时间:
2025-05-31
原始信息汇总
RTL Verilog Synthetic Simulated Dataset (Merged & Deduplicated) 数据集概述
数据集详情
- 来源: Claude 3.7 和 Claude 4 RTL 数据集
- 过滤条件: 仅包含成功仿真的示例 (
simulation_status=PASS或simulation_success=True) - 去重处理: 使用 MinHash 方法,相似度阈值为 0.8,基于
evolved_nl列 - 数据真实性: 仅包含真实的 RTL 代码,无合成响应
来源信息
- Claude 3.7:
sonyashijin/RTL_verilog_synthetic_Claude_3.7_verified_to_compile - Claude 4:
sonyashijin/RTL_verilog_synthetic_Claude_4_verified_to_compile_FSM
数据集统计
- 总示例数: 316
- 来自 Claude 3.7: 14
- 来自 Claude 4: 302
- 移除的重复项: 12 (3.7%)
数据列
rtl: Verilog RTL 代码(来自两个数据集)evolved_nl: 用户提示/问题描述(来自两个数据集)testbench: 测试平台代码(来自两个数据集)simulation_success: 布尔值,表示仿真是否成功(标准化)source_dataset: 示例来源的原始数据集
数据质量
- 所有示例均满足
simulation_success = True - RTL 代码平均长度: 2181 个字符
- 测试平台可用性: 316/316 示例 (100.0%)
- 使用 MinHash LSH 进行去重 (阈值=0.8)
使用示例
python from datasets import load_dataset
dataset = load_dataset("sonyashijin/RTL_verilog_synthetic_simulated") df = dataset[train].to_pandas()
访问各列
rtl_code = df[rtl].iloc[0] user_prompt = df[evolved_nl].iloc[0] testbench = df[testbench].iloc[0]
生成信息
- 生成日期: 2025-05-31 08:16:04
搜集汇总
数据集介绍

构建方式
在数字电路设计领域,高质量的寄存器传输级代码数据集对于验证和测试至关重要。RTL_verilog_synthetic_simulated数据集通过整合Claude 3.7和Claude 4两个来源的Verilog代码示例构建而成,仅保留仿真成功的实例。采用MinHash算法以0.8的相似度阈值对自然语言描述进行去重处理,最终形成包含316个有效样本的纯净集合。
特点
该数据集最显著的特征在于所有示例均经过严格仿真验证,确保代码功能的正确性。每个样本包含完整的RTL代码、自然语言描述和测试平台,平均代码长度达2181字符,测试平台覆盖率达到100%。通过跨数据集融合与去重处理,既保持了数据的多样性,又有效避免了内容冗余。
使用方法
研究人员可通过Hugging Face数据集库直接加载该资源,使用标准接口转换为pandas数据结构进行后续分析。数据集提供RTL代码、用户提示和测试平台等多维度信息,支持数字电路设计验证、代码生成模型训练等应用场景。用户可灵活提取特定字段,结合仿真结果开展深入的电路设计研究。
背景与挑战
背景概述
数字集成电路设计领域长期面临硬件描述语言验证的复杂性挑战,RTL_verilog_synthetic_simulated数据集于2025年由Sonya Shijin团队整合构建。该数据集聚焦寄存器传输级Verilog代码的自动生成与仿真验证,通过融合Claude 3.7与Claude 4两个子集的316个成功仿真案例,为硬件设计自动化提供了高质量基准。其核心价值在于呈现了自然语言到RTL代码的转换范式,对提升电子设计自动化工具的智能水平具有显著推动作用。
当前挑战
在硬件设计自动化领域,自然语言到可综合RTL代码的准确转换始终存在语义鸿沟难题。数据集构建过程中需克服多重技术障碍:首先需确保所有代码通过仿真验证,采用MinHash算法以0.8相似度阈值对自然语言描述去重;其次要统一不同来源的测试基准格式,维持代码与测试平台的完整性。这些措施有效解决了生成代码的功能正确性验证和语义重复问题,但如何扩展数据规模以覆盖更复杂电路结构仍是持续挑战。
常用场景
经典使用场景
在数字电路设计领域,RTL_verilog_synthetic_simulated数据集为硬件描述语言的研究提供了标准化实验平台。该数据集通过整合经过仿真验证的Verilog代码实例,广泛应用于寄存器传输级设计的自动化生成与优化研究。研究人员利用其结构化的代码-描述对数据,能够系统性地评估自然语言到硬件描述语言的转换模型性能,为电子设计自动化工具的开发奠定数据基础。
实际应用
在工业实践层面,该数据集为电子设计自动化工具链的智能化升级提供了关键支撑。芯片设计企业可基于这些经过仿真验证的代码模板,开发智能代码辅助生成系统,显著降低硬件设计工程师的编码错误率。测试平台的完整性使得该数据集能够直接应用于FPGA开发流程的质量保障环节,为复杂数字系统的快速原型验证提供标准化测试用例库。
衍生相关工作
基于该数据集的特性,学术界已衍生出多个重要研究方向。在硬件描述语言生成领域,研究者利用其构建了面向Verilog的神经代码生成基准测试体系。在形式化验证方面,该数据集促进了结合仿真与形式化方法的混合验证框架发展。此外,其去重机制启发了硬件代码相似性检测算法的创新,为知识产权保护提供了技术路径。
以上内容由遇见数据集搜集并总结生成



