five

OBF/commit-chronicle

收藏
Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/OBF/commit-chronicle
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是`JetBrains-Research/commit-chronicle`数据集的过滤版本,针对C、C++、Go、Java、Python、Rust和TypeScript语言的提交记录进行了筛选。过滤步骤包括:1. 移除了无用的特征,仅保留了提交消息和差异(diff);2. 仅选择了修改单个文件的提交;3. 移除了差异长度超过1024个标记(根据`OBF/obf-tokenizer`标记器估计)的样本。数据集分为训练集、验证集和测试集,每个语言配置都有相应的数据文件路径。

该数据集是`JetBrains-Research/commit-chronicle`数据集的过滤版本,针对C、C++、Go、Java、Python、Rust和TypeScript语言的提交记录进行了筛选。过滤步骤包括:1. 移除了无用的特征,仅保留了提交消息和差异(diff);2. 仅选择了修改单个文件的提交;3. 移除了差异长度超过1024个标记(根据`OBF/obf-tokenizer`标记器估计)的样本。数据集分为训练集、验证集和测试集,每个语言配置都有相应的数据文件路径。
提供机构:
OBF
原始信息汇总

数据集概述

数据集配置

  • C

    • 特征:
      • message: 字符串类型
      • diff: 字符串类型
    • 分割:
      • 训练集: 138903个样本, 116010891字节
      • 验证集: 28739个样本, 23655147字节
      • 测试集: 18108个样本, 15089573字节
    • 下载大小: 84218245字节
    • 数据集大小: 154755611字节
  • C++

    • 特征:
      • message: 字符串类型
      • diff: 字符串类型
    • 分割:
      • 训练集: 318858个样本, 283988203字节
      • 验证集: 81875个样本, 71347480字节
      • 测试集: 45965个样本, 40434527字节
    • 下载大小: 210054789字节
    • 数据集大小: 395770210字节
  • Go

    • 特征:
      • message: 字符串类型
      • diff: 字符串类型
    • 分割:
      • 训练集: 266236个样本, 233348778字节
      • 验证集: 55959个样本, 50916905字节
      • 测试集: 55278个样本, 49018314字节
    • 下载大小: 177300040字节
    • 数据集大小: 333283997字节
  • Java

    • 特征:
      • message: 字符串类型
      • diff: 字符串类型
    • 分割:
      • 训练集: 352118个样本, 341095989字节
      • 验证集: 75173个样本, 70142853字节
      • 测试集: 75789个样本, 73746462字节
    • 下载大小: 237710158字节
    • 数据集大小: 484985304字节
  • Python

    • 特征:
      • message: 字符串类型
      • diff: 字符串类型
    • 分割:
      • 训练集: 627007个样本, 540249752字节
      • 验证集: 98147个样本, 83521636字节
      • 测试集: 113517个样本, 92836805字节
    • 下载大小: 390614385字节
    • 数据集大小: 716608193字节
  • Rust

    • 特征:
      • message: 字符串类型
      • diff: 字符串类型
    • 分割:
      • 训练集: 88593个样本, 78635879字节
      • 验证集: 23356个样本, 20637229字节
      • 测试集: 16851个样本, 15019809字节
    • 下载大小: 61646506字节
    • 数据集大小: 114292917字节
  • TypeScript

    • 特征:
      • message: 字符串类型
      • diff: 字符串类型
    • 分割:
      • 训练集: 378871个样本, 306561530字节
      • 验证集: 72008个样本, 56861379字节
      • 测试集: 77097个样本, 62396070字节
    • 下载大小: 224008717字节
    • 数据集大小: 425818979字节

数据文件路径

  • C

    • 训练集: C/train-*
    • 验证集: C/validation-*
    • 测试集: C/test-*
  • C++

    • 训练集: C++/train-*
    • 验证集: C++/validation-*
    • 测试集: C++/test-*
  • Go

    • 训练集: Go/train-*
    • 验证集: Go/validation-*
    • 测试集: Go/test-*
  • Java

    • 训练集: Java/train-*
    • 验证集: Java/validation-*
    • 测试集: Java/test-*
  • Python

    • 训练集: Python/train-*
    • 验证集: Python/validation-*
    • 测试集: Python/test-*
  • Rust

    • 训练集: Rust/train-*
    • 验证集: Rust/validation-*
    • 测试集: Rust/test-*
  • TypeScript

    • 训练集: TypeScript/train-*
    • 验证集: TypeScript/validation-*
    • 测试集: TypeScript/test-*

标签

  • code

大小分类

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作