Large Scale Digital Design Dataset
收藏github2024-11-05 更新2024-11-06 收录
下载链接:
https://github.com/gtri/digital-design-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该项目旨在构建最大的数字硬件设计资源集合。这包括收集公开资源,编写脚本进行自动化获取,将设计资源预处理为通用结构,检查HDL语法正确性,并验证可综合性。该项目还旨在提供一个通用的可扩展API,用于连接用户定义的特征提取和运行外部工具以生成更多相关设计数据。希望所呈现的数据集将对EDA研究(包括基准测试和深度学习研究)具有生产力。
This project endeavors to construct the largest collection of digital hardware design resources. Specifically, it involves collecting open-source resources, developing scripts for automated acquisition, preprocessing design resources into a unified standard structure, verifying the syntactic correctness of HDL codes, and validating their synthesizability. Additionally, this project aims to provide a general-purpose, scalable API that supports connecting user-defined feature extraction modules and executing external tools to generate more relevant design data. It is hoped that the presented dataset will prove productive for EDA research, including benchmarking and deep learning studies.
创建时间:
2024-11-05
原始信息汇总
大规模数字设计数据集
项目目标
- 构建最大的数字硬件设计源代码集合。
- 收集公开源代码。
- 编写自动化脚本进行获取和预处理。
- 将设计源代码预处理为通用结构。
- 检查HDL语法正确性。
- 验证可综合性。
- 提供可扩展的API,用于用户定义的特征提取和运行外部工具生成更多相关设计数据。
数据集来源
开源项目
- ✅ OpenCores / FreeCores (手动精选子集,约126个设计)
- 〰️ BlackParrot
- 〰️ MemPool
- 〰️ NVDLA
- 〰️ CVA6
- 〰️ Vortex GPGPU
- 🏗️ FPNew
- 🏗️ SERV Core
- 〰️ OpenTitan
- 🏗️ FuseSoC Core Library
- 🏗️ secworks Core Library
- 〰️ MLBlocks
- 〰️ PULP Cores and Libraries
- 〰️ GRLIB IP Library
- 🏗️ tangxifan/micro_benchmark
- 〰️ DeepBenchVerilog
- 〰️ UT-LCA/tpu_like_design
- 〰️ UT-LCA/tpu_v2
- 〰️ UT-LCA/brainwave-like-design
- 〰️ mongrelgem/Verilog-Adder
基准测试
- ✅ HW2VEC
- ✅ OpenPiton Design Benchmark
- ✅ Verilog to Routing (VTR)
- ✅ Koios 2.0
- 🏗️ Titan 2.0
- 🏗️ MCNC 20
- ✅ ISCAS 85
- ✅ ISCAS 89
- ✅ LGSynth 89
- 🏗️ LGSynth 91
- 🏗️ IWLS 93
- 🏗️ I99T (ITC 99 子集)
- 🏗️ IWLS 2005: Faraday Subset
- 🏗️ IWLS 2005: Gaisler Subset
- ✅ EPFL Combinational Benchmark
- 🏗️ HDLBits / VerilogEval Subset
高层次综合
- 🏗️ PolyBench
- 🏗️ Machsuite
- 🏗️ Rosetta
- 🏗️ CHStone
- 〰️ Rodina
- 〰️ Parallel Programming For FPGAs
- 〰️ Xilinx/Vitis-HLS-Introductory-Examples
实验
- 〰️ Regex State Machines
- 〰️ Scraped Efabless Submissions
领域特定语言和架构生成器
- 〰️ PGRA
- 〰️ OpenFPGA
- 〰️ FloPoCo
数据集处理流程
- ✅ Verible - AST / CST
- ✅ Yosys - Module Listing
- 🏗️ Yosys - Module Hierarchy
- ✅ Yosys - Generic Synthesis / AIG (使用
synth+aigmap) - 🏗️ Yosys - Xilinx Synthesis + Techmap
- 🏗️ ISE - Synth + PnR
- 〰️ Vivado - Synth + PnR
- 〰️ Quartus - Synth + PnR
- 〰️ OpenROAD
备注
- 由于定义Verilog为基本HDL,必须将一些源代码从VHDL或BLIF等格式转换为Verilog。
- 对于基于HLS的源代码,可以使用不同的HLS工具处理不同版本的源代码。
搜集汇总
数据集介绍

构建方式
该数据集的构建旨在收集和整合大规模的数字硬件设计资源,涵盖了从开源项目到基准测试的广泛来源。构建过程包括自动化脚本的编写以获取公开资源,将设计源代码预处理为统一的结构,进行硬件描述语言(HDL)语法正确性检查,以及验证其可综合性。此外,项目还提供了一个可扩展的API,用于连接用户定义的特征提取和外部工具,以生成更多相关的设计数据。
特点
该数据集的显著特点在于其广泛性和多样性,涵盖了从开源硬件设计到高级综合(HLS)工具生成的多种资源。数据集不仅包括传统的Verilog设计,还涉及从VHDL和BLIF等其他格式转换而来的设计。此外,数据集支持多种EDA工具和流程,特别强调FPGA工具,以满足当前EDA研究的需求。
使用方法
用户可以通过提供的API接口访问和处理数据集中的设计资源,进行特征提取和数据生成。数据集支持多种EDA工具的集成,如Yosys、ISE、Vivado和Quartus等,用户可以根据需要选择合适的工具进行设计综合和布局布线。此外,数据集还提供了对FPGA工具的明确支持,以满足特定研究需求。
背景与挑战
背景概述
大规模数字设计数据集(Large Scale Digital Design Dataset)旨在构建最大的数字硬件设计资源集合,由乔治亚理工学院研究机构CIPHER实验室的硬件安全与信任(HST)小组发起。该项目不仅收集公开资源,还开发自动化脚本进行预处理,确保硬件描述语言(HDL)语法的正确性及可综合性。此外,项目提供了一个可扩展的API,用于用户自定义特征提取和运行外部工具生成更多相关设计数据。该数据集的创建旨在推动电子设计自动化(EDA)研究,包括基准测试和深度学习研究,对硬件设计领域具有重要影响。
当前挑战
构建大规模数字设计数据集面临多重挑战。首先,数据来源多样,包括开源项目和不同格式的硬件描述语言,如VHDL和BLIF,需转换为Verilog格式。其次,确保设计源代码的语法正确性和可综合性是一个复杂过程。此外,集成多种高级综合(HLS)工具和FPGA设计工具,如Vitis HLS、Intel HLS Compiler等,增加了数据集构建的复杂性。最后,提供一个通用的、可扩展的API,以支持用户自定义特征提取和外部工具的集成,是实现数据集广泛应用的关键挑战。
常用场景
经典使用场景
在电子设计自动化(EDA)领域,大规模数字设计数据集(Large Scale Digital Design Dataset)被广泛用于硬件设计的基准测试和深度学习研究。该数据集通过收集和预处理公开的硬件设计源代码,确保了设计的一致性和可合成性,从而为研究人员提供了一个标准化的测试平台。其经典使用场景包括但不限于:评估新设计方法的性能、验证设计工具的准确性以及训练用于硬件设计的机器学习模型。
解决学术问题
该数据集解决了硬件设计领域中常见的学术研究问题,如设计复杂性评估、设计优化和自动化设计工具的开发。通过提供一个大规模、多样化的设计源代码库,研究人员能够更有效地进行实验和验证,从而推动EDA技术的发展。此外,该数据集还促进了硬件安全与信任(HST)领域的研究,特别是在硬件设计中的安全性和可信性验证方面。
衍生相关工作
基于大规模数字设计数据集,已经衍生出多项经典工作,包括但不限于:开发新的硬件设计自动化工具、改进现有的EDA流程以及探索硬件设计中的安全性和可信性问题。例如,一些研究团队利用该数据集开发了新的设计优化算法,显著提高了设计效率和性能。此外,该数据集还促进了硬件设计领域的跨学科研究,如结合机器学习和硬件设计的创新方法。
以上内容由遇见数据集搜集并总结生成



