mvasiliniuc/iva-swift-codeint-clean-train
收藏Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-swift-codeint-clean-train
下载链接
链接失效反馈官方服务:
资源简介:
这是从GitHub提取的IVA Swift数据集的精选训练集,包含320000个Swift代码文件,旨在用于训练代码生成模型。数据集包括仓库名称、文件路径、文件内容、许可证等字段,所有文件均为Swift语言。数据集仅包含训练集,且提供了详细的统计数据和使用注意事项。
这是从GitHub提取的IVA Swift数据集的精选训练集,包含320000个Swift代码文件,旨在用于训练代码生成模型。数据集包括仓库名称、文件路径、文件内容、许可证等字段,所有文件均为Swift语言。数据集仅包含训练集,且提供了详细的统计数据和使用注意事项。
提供机构:
mvasiliniuc
原始信息汇总
数据集概述
数据集名称
- 名称: IVA Swift GitHub Code Dataset
- 别名: iva-swift-codeint-clean
数据集描述
- 目的: 用于训练代码生成模型。
- 内容: 包含从GitHub提取的320000个Swift代码文件。
- 来源: GitHub。
数据集结构
- 数据字段:
- repo_name: GitHub仓库名称
- path: 文件在GitHub仓库中的路径
- copies: 数据集中出现的次数
- content: 源文件内容
- size: 源文件大小(字节)
- license: GitHub仓库的许可证
- hash: 内容字段的哈希值
- line_mean: 内容平均行长度
- line_max: 内容最大行长度
- alpha_frac: 平均和最大行长度之间的比例
- ratio: 字符/令牌比例
- autogenerated: 是否自动生成
- config_or_test: 是否为配置文件或单元测试
- has_no_keywords: 是否没有Swift编程语言的关键词
- has_few_assignments: 使用=符号是否少于
minimum次
数据集统计
- 总大小: ~453 MB
- 文件数量: 320000
- 平均文件大小: 5940字节
许可证信息
- 主要许可证: MIT (201134次出现)
- 其他许可证: 包括agpl-3.0, apache-2.0, artistic-2.0等
语言
- 包含语言: Swift
数据分割
- 分割类型: 仅包含训练分割
使用注意事项
- 风险: 可能包含有害或偏见的代码,以及敏感信息如密码或用户名。



