AWfaw/ai-hdlcoder-dataset
收藏Hugging Face2023-07-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AWfaw/ai-hdlcoder-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators: []
language:
- code
license:
- mit
pretty_name: github-code
size_categories:
- 100K<n<1M
source_datasets: []
task_categories:
- text-generation
task_ids:
- language-modeling
---
# Dataset Card for AI-HDLCoder
## Dataset Description
The GitHub Code dataset consists of 100M code files from GitHub in VHDL programming language with extensions totaling in 1.94 GB of data. The dataset was created from the public GitHub dataset on Google BiqQuery at Anhalt University of Applied Sciences.
## Considerations for Using the Data
The dataset is created for research purposes and consists of source code from a wide range of repositories. As such they can potentially include harmful or biased code as well as sensitive information like passwords or usernames.
### Languages
```python
{
"VHDL": [".vhdl",".vhd" ]
}
```
## Dataset Structure
### Data Instances
```python
{
"repo_name": "sebgod/linguist",
"path": "samples/VHDL/foo.vhd",
"copies": "91",
"size": "217",
"content": "-- VHDL example file\n\nlibrary ieee;\nuse ieee.std_logic_1164.all;\n\nentity inverter is\n\tport(a : in std_logic;\n\t b : out std_logic);\nend entity;\n\narchitecture rtl of inverter is\nbegin\n\tb \u003c\u003d not a;\nend architecture;\n",
"license": "mit"
}
```
### Data Fields
|Field|Type|Description|
|---|---|---|
|content|string|content of source file|
|repo_name|string|name of the GitHub repository|
|path|string|path of file in GitHub repository|
|license|string|license of GitHub repository|
|size|int|size of source file in bytes|
### Data Splits
The dataset contains a train split only
### Licensing Information
```python
[
'agpl-3.0',
'artistic-2.0',
'mpl-2.0',
'cc0-1.0',
'mit',
'gpl-2.0',
'gpl-3.0',
'lgpl-3.0',
'apache-2.0',
'bsd-3-clause'
]
```
### v1.0
- Initial release of dataset
- The query was executed on 21.07.2023, 00:02:38 UTC+2
annotations_creators: []
language:
- code
license:
- mit
pretty_name: github-code
size_categories:
- 100K<n<1M
source_datasets: []
task_categories:
- text-generation
task_ids:
- language-modeling
## AI-HDLCoder 数据集卡片
## 数据集概述
本GitHub代码数据集包含源自GitHub的1亿个VHDL编程语言代码文件,总数据量达1.94 GB。该数据集由德国安哈尔特应用技术大学基于谷歌BigQuery(Google BigQuery)的公开GitHub数据集构建而成。
## 数据使用注意事项
本数据集仅供研究使用,涵盖来自各类代码仓库的源代码。因此,数据中可能包含有害或带有偏见的代码,以及密码、用户名等敏感信息。
### 支持语言
python
{
"VHDL": [".vhdl", ".vhd"]
}
其中VHDL语言对应的文件扩展名为`.vhdl`与`.vhd`。
## 数据集结构
### 数据实例
python
{
"repo_name": "sebgod/linguist",
"path": "samples/VHDL/foo.vhd",
"copies": "91",
"size": "217",
"content": "-- VHDL 示例文件
library ieee;
use ieee.std_logic_1164.all;
entity inverter is
port(a : in std_logic;
b : out std_logic);
end entity;
architecture rtl of inverter is
begin
b <= not a;
end architecture;
",
"license": "mit"
}
### 数据字段
| 字段名 | 数据类型 | 字段说明 |
| --- | --- | --- |
| content | 字符串 | 源代码文件内容 |
| repo_name | 字符串 | GitHub仓库名称 |
| path | 字符串 | 文件在GitHub仓库中的路径 |
| license | 字符串 | GitHub仓库的许可证 |
| size | 整数 | 源代码文件的字节大小 |
### 数据划分
本数据集仅包含训练集划分。
### 许可证信息
python
[
"GNU Affero通用公共许可证v3.0(AGPL-3.0)",
"艺术许可证2.0版(Artistic-2.0)",
"Mozilla公共许可证2.0版(MPL-2.0)",
"CC0 1.0通用协议(CC0-1.0)",
"MIT许可证(MIT)",
"GNU通用公共许可证v2.0(GPL-2.0)",
"GNU通用公共许可证v3.0(GPL-3.0)",
"GNU宽通用公共许可证v3.0(LGPL-3.0)",
"Apache许可证2.0版(Apache-2.0)",
"BSD 3条款许可证(BSD-3-Clause)"
]
### v1.0版本
- 数据集首次正式发布
- 数据查询操作于协调世界时+2的2023年7月21日00:02:38执行
提供机构:
AWfaw
原始信息汇总
数据集概述
数据集描述
- 名称: GitHub Code dataset
- 内容: 包含100M个VHDL编程语言的代码文件,总数据量为1.94 GB。
- 来源: 从Google BiqQuery的公共GitHub数据集中提取,由Anhalt University of Applied Sciences创建。
数据集结构
数据实例
- 示例: python { "repo_name": "sebgod/linguist", "path": "samples/VHDL/foo.vhd", "copies": "91", "size": "217", "content": "-- VHDL example file
library ieee; use ieee.std_logic_1164.all;
entity inverter is port(a : in std_logic; b : out std_logic); end entity;
architecture rtl of inverter is begin b u003cu003d not a; end architecture; ", "license": "mit" }
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
| content | string | 源文件内容 |
| repo_name | string | GitHub仓库名称 |
| path | string | 文件在GitHub仓库中的路径 |
| license | string | GitHub仓库的许可证 |
| size | int | 源文件大小(字节) |
数据分割
- 分割类型: 仅包含训练集。
许可证信息
- 许可证列表: python [ agpl-3.0, artistic-2.0, mpl-2.0, cc0-1.0, mit, gpl-2.0, gpl-3.0, lgpl-3.0, apache-2.0, bsd-3-clause ]
使用注意事项
- 目的: 主要用于研究。
- 风险: 可能包含有害或带有偏见的代码,以及敏感信息如密码或用户名。
版本信息
- 版本: v1.0
- 发布日期: 2023年7月21日
- 查询执行时间: 2023年7月21日 00:02:38 UTC+2
搜集汇总
数据集介绍

构建方式
AI-HDLCoder数据集的构建是基于GitHub上公开的代码库,采用VHDL编程语言的代码文件作为数据源。该数据集的创建是在Anhalt University of Applied Sciences通过Google BigQuery对GitHub公开数据集进行查询和筛选后形成的,总计包含了1.94 GB,约1亿行的VHDL代码。
使用方法
在使用AI-HDLCoder数据集时,研究者可以依据数据集提供的字段,如代码内容、仓库名称、文件路径、许可证和文件大小等信息,进行文本生成、语言模型训练等任务。数据集目前仅包含训练集分割,适用于模型的训练阶段。用户在使用前应确保遵守相应的数据使用协议和开源许可证要求。
背景与挑战
背景概述
AI-HDLCoder数据集,于2023年7月由安哈尔特应用科学大学基于Google BigQuery上的公共GitHub数据集构建而成,包含了约100M个VHDL编程语言的代码文件,总计数据量达1.94GB。该数据集旨在为研究提供丰富的代码资源,VHDL作为硬件描述语言,其在数字电路设计领域具有重要应用,数据集的构建为相关研究提供了重要基础。
当前挑战
数据集的构建与使用面临多重挑战。首先,由于源自GitHub的代码库多样性,数据集可能包含有害或带有偏见的代码,以及敏感信息如密码或用户名,这要求研究者在使用时需进行严格的脱敏与审查。其次,数据集仅包含训练集,缺乏测试集,这可能对模型的评估与验证造成困难。再者,数据集的多样性也带来了语言模型训练时的泛化能力挑战,需要更精确的算法来处理不同场景下的代码生成任务。
常用场景
经典使用场景
在计算机科学与软件工程的研究领域,AWfaw/ai-hdlcoder-dataset数据集因其涵盖了丰富的VHDL编程语言代码,被广泛用于文本生成任务的语言模型训练。该数据集以其庞大的规模和多样性,为研究者提供了一个理想的环境,以深入探索代码的生成与优化算法。
解决学术问题
该数据集解决了学术研究中代码自动生成和代码理解的关键问题。通过分析VHDL代码的内在规律和模式,研究者能够开发出更加高效的代码生成模型,这对于提高软件开发效率,降低开发成本具有重要的学术价值和实际意义。
实际应用
在实践应用方面,AWfaw/ai-hdlcoder-dataset数据集的应用场景包括但不限于硬件描述语言的自动生成、代码补全、代码审查以及代码质量评估。这些应用在集成电路设计、嵌入式系统开发等领域具有显著的实际应用价值,能够提升开发流程的自动化程度。
数据集最近研究
最新研究方向
在编程语言处理领域,尤其是针对硬件描述语言VHDL的研究,AWfaw/ai-hdlcoder-dataset数据集的问世为学术研究注入了新的活力。该数据集汇集了来自GitHub的数百万VHDL代码文件,为开发更为精准的代码生成与优化算法提供了丰富的资源。当前,研究人员正致力于利用该数据集深化对VHDL编程语言的理解,探索代码自动生成、错误检测以及智能优化等前沿研究方向。此外,数据集的开放获取特性促进了跨学科合作,有望推动相关技术在集成电路设计、自动化测试验证等领域的应用,具有重要的学术价值和工业影响。
以上内容由遇见数据集搜集并总结生成



