OBF/commit-chronicle
收藏Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/OBF/commit-chronicle
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是`JetBrains-Research/commit-chronicle`数据集的过滤版本,针对C、C++、Go、Java、Python、Rust和TypeScript语言的提交记录进行了筛选。过滤步骤包括:1. 移除了无用的特征,仅保留了提交消息和差异(diff);2. 仅选择了修改单个文件的提交;3. 移除了差异长度超过1024个标记(根据`OBF/obf-tokenizer`标记器估计)的样本。数据集分为训练集、验证集和测试集,每个语言配置都有相应的数据文件路径。
该数据集是`JetBrains-Research/commit-chronicle`数据集的过滤版本,针对C、C++、Go、Java、Python、Rust和TypeScript语言的提交记录进行了筛选。过滤步骤包括:1. 移除了无用的特征,仅保留了提交消息和差异(diff);2. 仅选择了修改单个文件的提交;3. 移除了差异长度超过1024个标记(根据`OBF/obf-tokenizer`标记器估计)的样本。数据集分为训练集、验证集和测试集,每个语言配置都有相应的数据文件路径。
提供机构:
OBF
原始信息汇总
数据集概述
数据集配置
-
C
- 特征:
- message: 字符串类型
- diff: 字符串类型
- 分割:
- 训练集: 138903个样本, 116010891字节
- 验证集: 28739个样本, 23655147字节
- 测试集: 18108个样本, 15089573字节
- 下载大小: 84218245字节
- 数据集大小: 154755611字节
- 特征:
-
C++
- 特征:
- message: 字符串类型
- diff: 字符串类型
- 分割:
- 训练集: 318858个样本, 283988203字节
- 验证集: 81875个样本, 71347480字节
- 测试集: 45965个样本, 40434527字节
- 下载大小: 210054789字节
- 数据集大小: 395770210字节
- 特征:
-
Go
- 特征:
- message: 字符串类型
- diff: 字符串类型
- 分割:
- 训练集: 266236个样本, 233348778字节
- 验证集: 55959个样本, 50916905字节
- 测试集: 55278个样本, 49018314字节
- 下载大小: 177300040字节
- 数据集大小: 333283997字节
- 特征:
-
Java
- 特征:
- message: 字符串类型
- diff: 字符串类型
- 分割:
- 训练集: 352118个样本, 341095989字节
- 验证集: 75173个样本, 70142853字节
- 测试集: 75789个样本, 73746462字节
- 下载大小: 237710158字节
- 数据集大小: 484985304字节
- 特征:
-
Python
- 特征:
- message: 字符串类型
- diff: 字符串类型
- 分割:
- 训练集: 627007个样本, 540249752字节
- 验证集: 98147个样本, 83521636字节
- 测试集: 113517个样本, 92836805字节
- 下载大小: 390614385字节
- 数据集大小: 716608193字节
- 特征:
-
Rust
- 特征:
- message: 字符串类型
- diff: 字符串类型
- 分割:
- 训练集: 88593个样本, 78635879字节
- 验证集: 23356个样本, 20637229字节
- 测试集: 16851个样本, 15019809字节
- 下载大小: 61646506字节
- 数据集大小: 114292917字节
- 特征:
-
TypeScript
- 特征:
- message: 字符串类型
- diff: 字符串类型
- 分割:
- 训练集: 378871个样本, 306561530字节
- 验证集: 72008个样本, 56861379字节
- 测试集: 77097个样本, 62396070字节
- 下载大小: 224008717字节
- 数据集大小: 425818979字节
- 特征:
数据文件路径
-
C
- 训练集:
C/train-* - 验证集:
C/validation-* - 测试集:
C/test-*
- 训练集:
-
C++
- 训练集:
C++/train-* - 验证集:
C++/validation-* - 测试集:
C++/test-*
- 训练集:
-
Go
- 训练集:
Go/train-* - 验证集:
Go/validation-* - 测试集:
Go/test-*
- 训练集:
-
Java
- 训练集:
Java/train-* - 验证集:
Java/validation-* - 测试集:
Java/test-*
- 训练集:
-
Python
- 训练集:
Python/train-* - 验证集:
Python/validation-* - 测试集:
Python/test-*
- 训练集:
-
Rust
- 训练集:
Rust/train-* - 验证集:
Rust/validation-* - 测试集:
Rust/test-*
- 训练集:
-
TypeScript
- 训练集:
TypeScript/train-* - 验证集:
TypeScript/validation-* - 测试集:
TypeScript/test-*
- 训练集:
标签
- code
大小分类
- 100K<n<1M



