GaTech-EIC/MG-Verilog
收藏MG-Verilog 数据集概述
数据集摘要
MG-Verilog 数据集旨在通过提供不同粒度的硬件描述及其对应的 Verilog 代码样本来增强 LLM 辅助的硬件设计。该数据集通过平衡微调方案展示了其有效性,实验表明,使用 MG-Verilog 数据集微调的 LLM 在 Verilog 代码生成准确性方面优于其他数据集训练的模型。
数据集结构
该数据集包含以下不同粒度的描述:
- block_summary: 每个代码块的块级摘要。
- high_level_global_summary: 代码的高层次简要描述。
- detailed_global_summary: 代码的详细描述。
使用方法
可以通过以下代码片段加载数据集: python from datasets import load_dataset dataset = load_dataset("GaTech-EIC/MG-Verilog")
示例格式
数据集中的示例包含以下键:
- description: 包含不同粒度的描述信息。
- code: 对应的 Verilog 代码实现。
示例: python dataset["train"][1234]["description"]
json { "block_summary": "<description> <module header>", "detailed_global_summary": "<description> <module header>", "high_level_global_summary": "<description> <module header>" }
python dataset["train"][1234]["code"]
verilog reg [PWM_DEPTH-1:0] count; wire pwm_next; assign pwm_next = (duty_cycle) ? (count <= duty_cycle) : 1b0; always @ (negedge rst_n, posedge clk) begin if (!rst_n) pwm <= 1b0; else pwm <= pwm_next; end always @ (negedge rst_n, posedge clk) begin if (!rst_n) count <= 1b0; else count <= count + 1b1; end endmodule
许可证
该数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。




