five

mvasiliniuc/iva-swift-codeint-clean

收藏
Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-swift-codeint-clean
下载链接
链接失效反馈
官方服务:
资源简介:
这是从GitHub中提取的经过整理的IVA Swift数据集,包含用于训练代码生成模型的Swift代码文件。数据集由383,380个Swift文件组成,总计约542MB。数据集经过筛选,去除了重复文件、模板文件、自动生成文件、配置文件或单元测试文件、字母数字字符比例低的文件、行长度过长的文件、缺少关键字的文件以及赋值操作符使用次数过少的文件。数据集仅包含训练集,分为训练和验证两部分。

这是从GitHub中提取的经过整理的IVA Swift数据集,包含用于训练代码生成模型的Swift代码文件。数据集由383,380个Swift文件组成,总计约542MB。数据集经过筛选,去除了重复文件、模板文件、自动生成文件、配置文件或单元测试文件、字母数字字符比例低的文件、行长度过长的文件、缺少关键字的文件以及赋值操作符使用次数过少的文件。数据集仅包含训练集,分为训练和验证两部分。
提供机构:
mvasiliniuc
原始信息汇总

数据集概述

数据集名称

  • 名称: IVA Swift GitHub Code Dataset
  • 别名: iva-swift-codeint-clean

数据集描述

  • 来源: 从GitHub提取的精选Swift文件
  • 目的: 用于训练代码生成模型
  • 大小: 包含383,380个Swift代码文件,总计约542MB

数据集内容

  • 语言: 仅包含Swift语言
  • 许可证: 包含多种许可证,其中最常见的是MIT许可证
  • 数据结构: 每个实例包含文件路径、内容、许可证、文件大小等信息

数据集统计

  • 总大小: 约542MB
  • 文件数量: 383,380个文件
  • 平均文件大小: 5,942字节

数据集使用

  • 下载方法: 使用load_dataset函数从Hugging Face数据集加载

数据集处理

  • 去重: 基于文件哈希去除重复文件
  • 模板移除: 移除包含特定模板文本的文件
  • 自动生成文件移除: 移除标记为自动生成的文件
  • 配置或测试文件移除: 移除标记为配置文件或单元测试的文件
  • 文件质量筛选: 根据文件内容的质量和特性进行筛选

数据集分割

使用注意事项

  • 潜在风险: 数据集可能包含有害或偏见的代码,以及敏感信息如密码或用户名

数据集详细信息

数据字段

字段 类型 描述
repo_name string GitHub仓库名称
path string 文件在GitHub仓库中的路径
copies string 文件在数据集中的出现次数
content string 源文件内容
size string 源文件大小(字节)
license string GitHub仓库的许可证
hash string 内容字段的哈希值
line_mean number 内容平均行长度
line_max number 内容最大行长度
alpha_frac number 内容平均与最大行长度之比
ratio number 字符/令牌比率
autogenerated boolean 如果内容是自动生成的则为真
config_or_test boolean 如果内容是配置文件或单元测试则为真
has_no_keywords boolean 如果文件没有Swift编程语言的关键词则为真
has_few_assignments boolean 如果文件使用=少于minimum次则为真

数据集实例

json { "repo_name":"jdkelley/Udacity-OnTheMap-ExampleApps", "path":"TheMovieManager-v2/TheMovieManager/BorderedButton.swift", "copies":"2", "size":"2649", "content":"...let phoneBorderedButtonExtraPadding: CGFloat = 14.0

var backingColor: UIColor? = nil
var highlightedBackingColor: UIColor? = nil

// MARK: Initialization

}", "license":"mit", "hash":"db1587fd117e9a835f58cf8203d8bf05", "line_mean":29.1136363636, "line_max":87, "alpha_frac":0.6700641752, "ratio":5.298, "autogenerated":false, "config_or_test":false, "has_no_keywords":false, "has_few_assignments":false }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作