ahmedallam/RTL-Repo
收藏Hugging Face2024-06-17 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ahmedallam/RTL-Repo
下载链接
链接失效反馈官方服务:
资源简介:
RTL-Repo是一个用于评估LLMs在大型复杂代码库中生成Verilog代码自动补全有效性的基准测试。它评估模型在理解和记忆整个Verilog代码库上下文的能力,并生成正确、相关、逻辑一致且符合编码规范和指南的新代码,同时了解项目中的所有组件和模块。这为模型在真实世界RTL设计场景中的表现提供了现实的评估。RTL-Repo包含来自GitHub仓库的4000多个代码样本,每个样本都包含整个Verilog代码库的上下文,为硬件设计社区提供了一个评估和训练LLMs的资源。
RTL-Repo是一个用于评估LLMs在大型复杂代码库中生成Verilog代码自动补全有效性的基准测试。它评估模型在理解和记忆整个Verilog代码库上下文的能力,并生成正确、相关、逻辑一致且符合编码规范和指南的新代码,同时了解项目中的所有组件和模块。这为模型在真实世界RTL设计场景中的表现提供了现实的评估。RTL-Repo包含来自GitHub仓库的4000多个代码样本,每个样本都包含整个Verilog代码库的上下文,为硬件设计社区提供了一个评估和训练LLMs的资源。
提供机构:
ahmedallam
原始信息汇总
数据集概述
数据集名称
- RTL-Repo Benchmark
数据集特征
- repo_name: 字符串类型
- file_path: 字符串类型
- next_line: 字符串类型
- context: 包含以下子特征
- path: 字符串类型
- snippet: 字符串类型
- created_at: 字符串类型
- all_code: 字符串类型
- cropped_code: 字符串类型
- level: 字符串类型
数据集分割
- 训练集: 2924个样本,总大小251078657字节
- 测试集: 1174个样本,总大小84440605字节
数据集大小
- 下载大小: 73213501字节
- 数据集总大小: 335519262字节
配置
- 默认配置: 包含训练和测试数据文件,路径分别为
data/train-*和data/test-*
任务类别
- 文本生成
标签
- RTL
- Verilog
- Benchmarking
- Code
大小类别
- 1K<n<10K
搜集汇总
数据集介绍

背景与挑战
背景概述
RTL-Repo是一个包含4000多个Verilog代码样本的数据集,用于评估LLMs在大型RTL设计项目中的代码生成能力。该数据集特别关注模型在复杂、多文件项目中的上下文理解和代码一致性表现。
以上内容由遇见数据集搜集并总结生成



