five

mvasiliniuc/iva-swift-codeint

收藏
Hugging Face2023-06-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-swift-codeint
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从GitHub提取的原始IVA Swift数据集,包含未经整理的Swift文件,旨在用于训练代码生成模型。数据集包含753693个Swift代码文件,总计约700MB数据,这些数据是从Google BigQuery上的公共GitHub数据集中创建的。数据集的字段包括GitHub仓库名称、文件路径、文件在数据集中的出现次数、文件内容、文件大小和仓库许可证。数据集仅包含Swift文件,并且每个条目都包含相关的许可证信息。数据集的创建过程包括在Google BigQuery中创建数据集和表、在Google Cloud Storage中创建存储桶、运行查询并将结果导出为JSON格式的压缩文件。数据集仅包含训练集,并且在使用时需要注意可能包含有害或偏见的代码以及敏感信息。
提供机构:
mvasiliniuc
原始信息汇总

数据集概述

数据集名称

  • 名称: IVA Swift GitHub Code Dataset
  • 别名: iva-swift-codeint-raw

数据集描述

  • 内容: 包含753,693个Swift代码文件,总计约700MB数据。
  • 目的: 用于训练代码生成模型。
  • 来源: 从GitHub公共数据集提取。

数据集特征

  • 语言: 仅包含Swift语言。
  • 任务类别: 文本生成。
  • 标签: code, swift, native iOS development。
  • 大小: 100K<n<1M。

数据结构

  • 数据字段:
    • repo_name: GitHub仓库名称。
    • path: 文件在GitHub仓库中的路径。
    • copies: 数据集中出现的次数。
    • size: 源文件大小(字节)。
    • content: 源文件内容。
    • license: GitHub仓库的许可证。

数据集统计

  • 总大小: 约712MB。
  • 文件数量: 753,693。
  • 平均文件大小: 4,245字节。

许可证信息

  • 数据集许可证: other。
  • 每个文件的许可证: 包括agpl-3.0, apache-2.0, artistic-2.0等多种许可证。

数据集创建

  • 方法: 使用Google BigQuery从GitHub数据集中提取Swift文件。
  • 处理量: 2.7TB。
  • 提取文件数: 464,215。
  • 总逻辑字节: 1.46GB。

使用指南

  • 下载方法: 使用datasets.load_dataset函数加载数据集。

注意事项

  • 数据风险: 可能包含有害或偏见代码,以及敏感信息如密码或用户名。

引用信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作