five

mvasiliniuc/iva-kotlin-codeint-clean

收藏
Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-kotlin-codeint-clean
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从GitHub提取的精选IVA Kotlin数据集,包含经过筛选的Kotlin文件,旨在用于训练代码生成模型。数据集包含383,380个Kotlin代码文件,总计约542MB数据。数据清理过程包括去重、移除模板文件、自动生成文件、测试文件、配置文件和低质量文件等。数据集仅包含Kotlin文件,每个条目都包含相关的许可证信息。

这是一个从GitHub提取的精选IVA Kotlin数据集,包含经过筛选的Kotlin文件,旨在用于训练代码生成模型。数据集包含383,380个Kotlin代码文件,总计约542MB数据。数据清理过程包括去重、移除模板文件、自动生成文件、测试文件、配置文件和低质量文件等。数据集仅包含Kotlin文件,每个条目都包含相关的许可证信息。
提供机构:
mvasiliniuc
原始信息汇总

IVA Kotlin GitHub Code Dataset 概述

数据集描述

  • 名称: IVA Kotlin GitHub Code Dataset
  • 来源: 从GitHub提取的精选Kotlin文件
  • 目的: 用于训练代码生成模型
  • 规模: 包含383,380个Kotlin代码文件,总计约542MB数据

数据结构

数据字段

字段名 类型 描述
repo_name string GitHub仓库名称
path string 文件在GitHub仓库中的路径
copies string 数据集中出现的次数
content string 源文件内容
size string 源文件大小(字节)
license string GitHub仓库的许可证
hash string 内容字段的哈希值
line_mean number 内容平均行长度
line_max number 内容最大行长度
alpha_frac number 内容平均与最大行长度之比
ratio number 字符/标记比率
autogenerated boolean 内容是否自动生成
config_or_test boolean 内容是否为配置文件或单元测试
has_no_keywords boolean 文件是否没有Kotlin编程语言的关键词
has_few_assignments boolean 文件使用赋值操作符=的次数是否少于minimum

实例

json { "repo_name":"oboenikui/UnivCoopFeliCaReader", "path":"app/src/main/java/com/oboenikui/campusfelica/ScannerActivity.kt", "copies":"1", "size":"5635", "content":"....", "license":"apache-2.0", "hash":"e88cfd99346cbef640fc540aac3bf20b", "line_mean":37.8620689655, "line_max":199, "alpha_frac":0.5724933452, "ratio":5.0222816399, "autogenerated":false, "config_or_test":false, "has_no_keywords":false, "has_few_assignments":false }

语言

  • 包含语言: Kotlin
  • 文件扩展名: .kt

许可证

  • 许可证种类: 包括agpl-3.0, apache-2.0, artistic-2.0等多种许可证
  • 分布: 各种许可证的文件数量不同,如apache-2.0有114,641个文件

数据集统计

  • 总大小: ~261 MB
  • 文件数量: 201,843
  • 平均文件大小: 5,205字节

精选过程

  • 基于文件哈希去除重复文件
  • 去除包含特定模板或关键词的文件
  • 通过MinHash和Jaccard相似度去除近似重复文件
  • 根据文件内容特征进行筛选,如行长度、字符比率等

数据分割

  • 训练集: 分为训练和验证两部分
  • 链接:
    • 清洁版训练集: https://huggingface.co/datasets/mvasiliniuc/iva-kotlin-codeint-clean-train
    • 清洁版验证集: https://huggingface.co/datasets/mvasiliniuc/iva-kotlin-codeint-clean-valid
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作