AWfaw/ai-hdlcoder-dataset-clean
收藏Hugging Face2023-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AWfaw/ai-hdlcoder-dataset-clean
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个经过清理的数据集,用于实验和快速预标记。数据集通过SQL查询从`bigquery-public-data.github_repos`中提取,查询条件包括文件路径以`.vhdl`或`.vhd`结尾,文件大小在0到1048575字节之间,并且文件内容为非二进制。数据集包含了仓库名称、文件路径、文件副本数、文件大小、文件内容以及许可证信息。
该数据集是一个经过清理的数据集,用于实验和快速预标记。数据集通过SQL查询从`bigquery-public-data.github_repos`中提取,查询条件包括文件路径以`.vhdl`或`.vhd`结尾,文件大小在0到1048575字节之间,并且文件内容为非二进制。数据集包含了仓库名称、文件路径、文件副本数、文件大小、文件内容以及许可证信息。
提供机构:
AWfaw
原始信息汇总
数据集概述
数据集用途
- 用于实验和快速预处理。
数据集创建SQL查询
python
SELECT
f.repo_name,
f.path,
c.copies,
c.size,
c.content,
l.license
FROM
(select f.*, row_number() over (partition by id order by path desc) as seqnum
from bigquery-public-data.github_repos.files AS f) f
JOIN
bigquery-public-data.github_repos.contents AS c
ON
f.id = c.id AND seqnum=1
JOIN
bigquery-public-data.github_repos.licenses AS l
ON
f.repo_name = l.repo_name
WHERE
NOT c.binary
AND ((f.path LIKE %.vhdl
OR f.path LIKE %.vhd
AND (c.size BETWEEN 0
AND 1048575)))
数据集字段
repo_name: 仓库名称path: 文件路径copies: 副本数size: 文件大小content: 文件内容license: 许可证信息
数据集筛选条件
- 非二进制文件
- 文件路径以
.vhdl或.vhd结尾 - 文件大小介于0至1048575字节之间
许可证
- Apache-2.0



