five

ahmedallam/RTL-Repo

收藏
Hugging Face2024-06-17 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ahmedallam/RTL-Repo
下载链接
链接失效反馈
官方服务:
资源简介:
RTL-Repo是一个用于评估LLMs在大型复杂代码库中生成Verilog代码自动补全有效性的基准测试。它评估模型在理解和记忆整个Verilog代码库上下文的能力,并生成正确、相关、逻辑一致且符合编码规范和指南的新代码,同时了解项目中的所有组件和模块。这为模型在真实世界RTL设计场景中的表现提供了现实的评估。RTL-Repo包含来自GitHub仓库的4000多个代码样本,每个样本都包含整个Verilog代码库的上下文,为硬件设计社区提供了一个评估和训练LLMs的资源。

RTL-Repo是一个用于评估LLMs在大型复杂代码库中生成Verilog代码自动补全有效性的基准测试。它评估模型在理解和记忆整个Verilog代码库上下文的能力,并生成正确、相关、逻辑一致且符合编码规范和指南的新代码,同时了解项目中的所有组件和模块。这为模型在真实世界RTL设计场景中的表现提供了现实的评估。RTL-Repo包含来自GitHub仓库的4000多个代码样本,每个样本都包含整个Verilog代码库的上下文,为硬件设计社区提供了一个评估和训练LLMs的资源。
提供机构:
ahmedallam
原始信息汇总

数据集概述

数据集名称

  • RTL-Repo Benchmark

数据集特征

  • repo_name: 字符串类型
  • file_path: 字符串类型
  • next_line: 字符串类型
  • context: 包含以下子特征
    • path: 字符串类型
    • snippet: 字符串类型
  • created_at: 字符串类型
  • all_code: 字符串类型
  • cropped_code: 字符串类型
  • level: 字符串类型

数据集分割

  • 训练集: 2924个样本,总大小251078657字节
  • 测试集: 1174个样本,总大小84440605字节

数据集大小

  • 下载大小: 73213501字节
  • 数据集总大小: 335519262字节

配置

  • 默认配置: 包含训练和测试数据文件,路径分别为data/train-*data/test-*

任务类别

  • 文本生成

标签

  • RTL
  • Verilog
  • Benchmarking
  • Code

大小类别

  • 1K<n<10K
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
RTL-Repo是一个包含4000多个Verilog代码样本的数据集,用于评估LLMs在大型RTL设计项目中的代码生成能力。该数据集特别关注模型在复杂、多文件项目中的上下文理解和代码一致性表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作