ahmedallam/RTL-Repo

Name: ahmedallam/RTL-Repo
Creator: ahmedallam
Published: 2024-06-17 11:16:45
License: 暂无描述

Hugging Face2024-06-17 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/ahmedallam/RTL-Repo

下载链接

链接失效反馈

官方服务：

资源简介：

RTL-Repo是一个用于评估LLMs在大型复杂代码库中生成Verilog代码自动补全有效性的基准测试。它评估模型在理解和记忆整个Verilog代码库上下文的能力，并生成正确、相关、逻辑一致且符合编码规范和指南的新代码，同时了解项目中的所有组件和模块。这为模型在真实世界RTL设计场景中的表现提供了现实的评估。RTL-Repo包含来自GitHub仓库的4000多个代码样本，每个样本都包含整个Verilog代码库的上下文，为硬件设计社区提供了一个评估和训练LLMs的资源。

提供机构：

ahmedallam

原始信息汇总

数据集概述

数据集名称

RTL-Repo Benchmark

数据集特征

repo_name: 字符串类型
file_path: 字符串类型
next_line: 字符串类型
context: 包含以下子特征
- path: 字符串类型
- snippet: 字符串类型
created_at: 字符串类型
all_code: 字符串类型
cropped_code: 字符串类型
level: 字符串类型

数据集分割

训练集: 2924个样本，总大小251078657字节
测试集: 1174个样本，总大小84440605字节

数据集大小

下载大小: 73213501字节
数据集总大小: 335519262字节

配置

默认配置: 包含训练和测试数据文件，路径分别为data/train-*和data/test-*

任务类别

文本生成

大小类别

1K<n<10K

搜集汇总

数据集介绍

背景与挑战

背景概述

RTL-Repo是一个包含4000多个Verilog代码样本的数据集，用于评估LLMs在大型RTL设计项目中的代码生成能力。该数据集特别关注模型在复杂、多文件项目中的上下文理解和代码一致性表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集