mvasiliniuc/iva-swift-codeint
收藏Hugging Face2023-06-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-swift-codeint
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从GitHub提取的原始IVA Swift数据集,包含未经整理的Swift文件,旨在用于训练代码生成模型。数据集包含753693个Swift代码文件,总计约700MB数据,这些数据是从Google BigQuery上的公共GitHub数据集中创建的。数据集的字段包括GitHub仓库名称、文件路径、文件在数据集中的出现次数、文件内容、文件大小和仓库许可证。数据集仅包含Swift文件,并且每个条目都包含相关的许可证信息。数据集的创建过程包括在Google BigQuery中创建数据集和表、在Google Cloud Storage中创建存储桶、运行查询并将结果导出为JSON格式的压缩文件。数据集仅包含训练集,并且在使用时需要注意可能包含有害或偏见的代码以及敏感信息。
提供机构:
mvasiliniuc
原始信息汇总
数据集概述
数据集名称
- 名称: IVA Swift GitHub Code Dataset
- 别名: iva-swift-codeint-raw
数据集描述
- 内容: 包含753,693个Swift代码文件,总计约700MB数据。
- 目的: 用于训练代码生成模型。
- 来源: 从GitHub公共数据集提取。
数据集特征
- 语言: 仅包含Swift语言。
- 任务类别: 文本生成。
- 标签: code, swift, native iOS development。
- 大小: 100K<n<1M。
数据结构
- 数据字段:
repo_name: GitHub仓库名称。path: 文件在GitHub仓库中的路径。copies: 数据集中出现的次数。size: 源文件大小(字节)。content: 源文件内容。license: GitHub仓库的许可证。
数据集统计
- 总大小: 约712MB。
- 文件数量: 753,693。
- 平均文件大小: 4,245字节。
许可证信息
- 数据集许可证: other。
- 每个文件的许可证: 包括agpl-3.0, apache-2.0, artistic-2.0等多种许可证。
数据集创建
- 方法: 使用Google BigQuery从GitHub数据集中提取Swift文件。
- 处理量: 2.7TB。
- 提取文件数: 464,215。
- 总逻辑字节: 1.46GB。
使用指南
- 下载方法: 使用
datasets.load_dataset函数加载数据集。
注意事项
- 数据风险: 可能包含有害或偏见代码,以及敏感信息如密码或用户名。
引用信息
- 作者: Mircea Vasiliniuc
- 年份: 2023
- URL: https://huggingface.co/datasets/mvasiliniuc/iva-swift-codeint



