five

mvasiliniuc/iva-swift-codeint-clean-train

收藏
Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-swift-codeint-clean-train
下载链接
链接失效反馈
官方服务:
资源简介:
这是从GitHub提取的IVA Swift数据集的精选训练集,包含320000个Swift代码文件,旨在用于训练代码生成模型。数据集包括仓库名称、文件路径、文件内容、许可证等字段,所有文件均为Swift语言。数据集仅包含训练集,且提供了详细的统计数据和使用注意事项。

这是从GitHub提取的IVA Swift数据集的精选训练集,包含320000个Swift代码文件,旨在用于训练代码生成模型。数据集包括仓库名称、文件路径、文件内容、许可证等字段,所有文件均为Swift语言。数据集仅包含训练集,且提供了详细的统计数据和使用注意事项。
提供机构:
mvasiliniuc
原始信息汇总

数据集概述

数据集名称

  • 名称: IVA Swift GitHub Code Dataset
  • 别名: iva-swift-codeint-clean

数据集描述

  • 目的: 用于训练代码生成模型。
  • 内容: 包含从GitHub提取的320000个Swift代码文件。
  • 来源: GitHub。

数据集结构

  • 数据字段:
    • repo_name: GitHub仓库名称
    • path: 文件在GitHub仓库中的路径
    • copies: 数据集中出现的次数
    • content: 源文件内容
    • size: 源文件大小(字节)
    • license: GitHub仓库的许可证
    • hash: 内容字段的哈希值
    • line_mean: 内容平均行长度
    • line_max: 内容最大行长度
    • alpha_frac: 平均和最大行长度之间的比例
    • ratio: 字符/令牌比例
    • autogenerated: 是否自动生成
    • config_or_test: 是否为配置文件或单元测试
    • has_no_keywords: 是否没有Swift编程语言的关键词
    • has_few_assignments: 使用=符号是否少于minimum

数据集统计

  • 总大小: ~453 MB
  • 文件数量: 320000
  • 平均文件大小: 5940字节

许可证信息

  • 主要许可证: MIT (201134次出现)
  • 其他许可证: 包括agpl-3.0, apache-2.0, artistic-2.0等

语言

  • 包含语言: Swift

数据分割

  • 分割类型: 仅包含训练分割

使用注意事项

  • 风险: 可能包含有害或偏见的代码,以及敏感信息如密码或用户名。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作