mvasiliniuc/iva-kotlin-codeint-clean
收藏Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mvasiliniuc/iva-kotlin-codeint-clean
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从GitHub提取的精选IVA Kotlin数据集,包含经过筛选的Kotlin文件,旨在用于训练代码生成模型。数据集包含383,380个Kotlin代码文件,总计约542MB数据。数据清理过程包括去重、移除模板文件、自动生成文件、测试文件、配置文件和低质量文件等。数据集仅包含Kotlin文件,每个条目都包含相关的许可证信息。
这是一个从GitHub提取的精选IVA Kotlin数据集,包含经过筛选的Kotlin文件,旨在用于训练代码生成模型。数据集包含383,380个Kotlin代码文件,总计约542MB数据。数据清理过程包括去重、移除模板文件、自动生成文件、测试文件、配置文件和低质量文件等。数据集仅包含Kotlin文件,每个条目都包含相关的许可证信息。
提供机构:
mvasiliniuc
原始信息汇总
IVA Kotlin GitHub Code Dataset 概述
数据集描述
- 名称: IVA Kotlin GitHub Code Dataset
- 来源: 从GitHub提取的精选Kotlin文件
- 目的: 用于训练代码生成模型
- 规模: 包含383,380个Kotlin代码文件,总计约542MB数据
数据结构
数据字段
| 字段名 | 类型 | 描述 |
|---|---|---|
| repo_name | string | GitHub仓库名称 |
| path | string | 文件在GitHub仓库中的路径 |
| copies | string | 数据集中出现的次数 |
| content | string | 源文件内容 |
| size | string | 源文件大小(字节) |
| license | string | GitHub仓库的许可证 |
| hash | string | 内容字段的哈希值 |
| line_mean | number | 内容平均行长度 |
| line_max | number | 内容最大行长度 |
| alpha_frac | number | 内容平均与最大行长度之比 |
| ratio | number | 字符/标记比率 |
| autogenerated | boolean | 内容是否自动生成 |
| config_or_test | boolean | 内容是否为配置文件或单元测试 |
| has_no_keywords | boolean | 文件是否没有Kotlin编程语言的关键词 |
| has_few_assignments | boolean | 文件使用赋值操作符=的次数是否少于minimum次 |
实例
json { "repo_name":"oboenikui/UnivCoopFeliCaReader", "path":"app/src/main/java/com/oboenikui/campusfelica/ScannerActivity.kt", "copies":"1", "size":"5635", "content":"....", "license":"apache-2.0", "hash":"e88cfd99346cbef640fc540aac3bf20b", "line_mean":37.8620689655, "line_max":199, "alpha_frac":0.5724933452, "ratio":5.0222816399, "autogenerated":false, "config_or_test":false, "has_no_keywords":false, "has_few_assignments":false }
语言
- 包含语言: Kotlin
- 文件扩展名:
.kt
许可证
- 许可证种类: 包括agpl-3.0, apache-2.0, artistic-2.0等多种许可证
- 分布: 各种许可证的文件数量不同,如apache-2.0有114,641个文件
数据集统计
- 总大小: ~261 MB
- 文件数量: 201,843
- 平均文件大小: 5,205字节
精选过程
- 基于文件哈希去除重复文件
- 去除包含特定模板或关键词的文件
- 通过MinHash和Jaccard相似度去除近似重复文件
- 根据文件内容特征进行筛选,如行长度、字符比率等
数据分割
- 训练集: 分为训练和验证两部分
- 链接:
- 清洁版训练集: https://huggingface.co/datasets/mvasiliniuc/iva-kotlin-codeint-clean-train
- 清洁版验证集: https://huggingface.co/datasets/mvasiliniuc/iva-kotlin-codeint-clean-valid



