mvasiliniuc/iva-swift-codeint-clean
收藏Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-swift-codeint-clean
下载链接
链接失效反馈官方服务:
资源简介:
这是从GitHub中提取的经过整理的IVA Swift数据集,包含用于训练代码生成模型的Swift代码文件。数据集由383,380个Swift文件组成,总计约542MB。数据集经过筛选,去除了重复文件、模板文件、自动生成文件、配置文件或单元测试文件、字母数字字符比例低的文件、行长度过长的文件、缺少关键字的文件以及赋值操作符使用次数过少的文件。数据集仅包含训练集,分为训练和验证两部分。
这是从GitHub中提取的经过整理的IVA Swift数据集,包含用于训练代码生成模型的Swift代码文件。数据集由383,380个Swift文件组成,总计约542MB。数据集经过筛选,去除了重复文件、模板文件、自动生成文件、配置文件或单元测试文件、字母数字字符比例低的文件、行长度过长的文件、缺少关键字的文件以及赋值操作符使用次数过少的文件。数据集仅包含训练集,分为训练和验证两部分。
提供机构:
mvasiliniuc
原始信息汇总
数据集概述
数据集名称
- 名称: IVA Swift GitHub Code Dataset
- 别名: iva-swift-codeint-clean
数据集描述
- 来源: 从GitHub提取的精选Swift文件
- 目的: 用于训练代码生成模型
- 大小: 包含383,380个Swift代码文件,总计约542MB
数据集内容
- 语言: 仅包含Swift语言
- 许可证: 包含多种许可证,其中最常见的是MIT许可证
- 数据结构: 每个实例包含文件路径、内容、许可证、文件大小等信息
数据集统计
- 总大小: 约542MB
- 文件数量: 383,380个文件
- 平均文件大小: 5,942字节
数据集使用
- 下载方法: 使用
load_dataset函数从Hugging Face数据集加载
数据集处理
- 去重: 基于文件哈希去除重复文件
- 模板移除: 移除包含特定模板文本的文件
- 自动生成文件移除: 移除标记为自动生成的文件
- 配置或测试文件移除: 移除标记为配置文件或单元测试的文件
- 文件质量筛选: 根据文件内容的质量和特性进行筛选
数据集分割
- 分割类型: 包含训练和验证分割
- 访问链接:
- 训练集: Clean Version Train
- 验证集: Clean Version Valid
使用注意事项
- 潜在风险: 数据集可能包含有害或偏见的代码,以及敏感信息如密码或用户名
数据集详细信息
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
| repo_name | string | GitHub仓库名称 |
| path | string | 文件在GitHub仓库中的路径 |
| copies | string | 文件在数据集中的出现次数 |
| content | string | 源文件内容 |
| size | string | 源文件大小(字节) |
| license | string | GitHub仓库的许可证 |
| hash | string | 内容字段的哈希值 |
| line_mean | number | 内容平均行长度 |
| line_max | number | 内容最大行长度 |
| alpha_frac | number | 内容平均与最大行长度之比 |
| ratio | number | 字符/令牌比率 |
| autogenerated | boolean | 如果内容是自动生成的则为真 |
| config_or_test | boolean | 如果内容是配置文件或单元测试则为真 |
| has_no_keywords | boolean | 如果文件没有Swift编程语言的关键词则为真 |
| has_few_assignments | boolean | 如果文件使用=少于minimum次则为真 |
数据集实例
json { "repo_name":"jdkelley/Udacity-OnTheMap-ExampleApps", "path":"TheMovieManager-v2/TheMovieManager/BorderedButton.swift", "copies":"2", "size":"2649", "content":"...let phoneBorderedButtonExtraPadding: CGFloat = 14.0
var backingColor: UIColor? = nil
var highlightedBackingColor: UIColor? = nil
// MARK: Initialization
}", "license":"mit", "hash":"db1587fd117e9a835f58cf8203d8bf05", "line_mean":29.1136363636, "line_max":87, "alpha_frac":0.6700641752, "ratio":5.298, "autogenerated":false, "config_or_test":false, "has_no_keywords":false, "has_few_assignments":false }



