five

AWfaw/ai-hdlcoder-dataset-clean

收藏
Hugging Face2023-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AWfaw/ai-hdlcoder-dataset-clean
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个经过清理的数据集,用于实验和快速预标记。数据集通过SQL查询从`bigquery-public-data.github_repos`中提取,查询条件包括文件路径以`.vhdl`或`.vhd`结尾,文件大小在0到1048575字节之间,并且文件内容为非二进制。数据集包含了仓库名称、文件路径、文件副本数、文件大小、文件内容以及许可证信息。

该数据集是一个经过清理的数据集,用于实验和快速预标记。数据集通过SQL查询从`bigquery-public-data.github_repos`中提取,查询条件包括文件路径以`.vhdl`或`.vhd`结尾,文件大小在0到1048575字节之间,并且文件内容为非二进制。数据集包含了仓库名称、文件路径、文件副本数、文件大小、文件内容以及许可证信息。
提供机构:
AWfaw
原始信息汇总

数据集概述

数据集用途

  • 用于实验和快速预处理。

数据集创建SQL查询

python SELECT f.repo_name, f.path, c.copies, c.size, c.content, l.license FROM (select f.*, row_number() over (partition by id order by path desc) as seqnum from bigquery-public-data.github_repos.files AS f) f JOIN bigquery-public-data.github_repos.contents AS c ON f.id = c.id AND seqnum=1 JOIN bigquery-public-data.github_repos.licenses AS l ON f.repo_name = l.repo_name WHERE NOT c.binary AND ((f.path LIKE %.vhdl OR f.path LIKE %.vhd AND (c.size BETWEEN 0 AND 1048575)))

数据集字段

  • repo_name: 仓库名称
  • path: 文件路径
  • copies: 副本数
  • size: 文件大小
  • content: 文件内容
  • license: 许可证信息

数据集筛选条件

  • 非二进制文件
  • 文件路径以.vhdl.vhd结尾
  • 文件大小介于0至1048575字节之间

许可证

  • Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作