five

cassanof/CodeEditSearch

收藏
Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/cassanof/CodeEditSearch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为CodeEditSearch,是从CommitPackFT数据集中构建的,包含了约1500个提交的差异(diff),涵盖了多种编程语言,如Python、JavaScript、TypeScript、Go、Ruby、Java、PHP、C、C++、Rust、Swift、Scala和Bash。数据集的目标是评估模型在给定指令的情况下检索差异的能力。每个配置(config)都包含多个特征(features),如after、before、diff、instruction、license、repos和commit,并且每个配置都有一个训练集(train split),包含了不同数量的样本和字节大小。

该数据集名为CodeEditSearch,是从CommitPackFT数据集中构建的,包含了约1500个提交的差异(diff),涵盖了多种编程语言,如Python、JavaScript、TypeScript、Go、Ruby、Java、PHP、C、C++、Rust、Swift、Scala和Bash。数据集的目标是评估模型在给定指令的情况下检索差异的能力。每个配置(config)都包含多个特征(features),如after、before、diff、instruction、license、repos和commit,并且每个配置都有一个训练集(train split),包含了不同数量的样本和字节大小。
提供机构:
cassanof
原始信息汇总

数据集概述

数据集名称

  • 名称: CodeEditSearch

许可证

  • 许可证: MIT

数据集特征

  • 特征列表:
    • after: 数据类型为string
    • before: 数据类型为string
    • diff: 数据类型为string
    • instruction: 数据类型为string
    • license: 数据类型为string
    • repos: 数据类型为string
    • commit: 数据类型为string

数据集配置

  • 配置列表:
    • config_name: c
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4158322.23
        • num_examples: 1590
        • download_size: 2035558
        • dataset_size: 4158322.23
    • config_name: c++
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 5312874.125
        • num_examples: 1690
        • download_size: 2326229
        • dataset_size: 5312874.125
    • config_name: go
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4383070.38
        • num_examples: 1752
        • download_size: 2251777
        • dataset_size: 4383070.38
    • config_name: java
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4773885.306
        • num_examples: 1756
        • download_size: 2199832
        • dataset_size: 4773885.306
    • config_name: javascript
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4047063.3755
        • num_examples: 1711
        • download_size: 2129053
        • dataset_size: 4047063.3755
    • config_name: php
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4369481.745
        • num_examples: 1745
        • download_size: 2101446
        • dataset_size: 4369481.745
    • config_name: python
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4140224.83
        • num_examples: 1645
        • download_size: 2139718
        • dataset_size: 4140224.83
    • config_name: ruby
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4551232.455
        • num_examples: 1617
        • download_size: 2186935
        • dataset_size: 4551232.455
    • config_name: rust
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4267898.9775
        • num_examples: 1695
        • download_size: 2077686
        • dataset_size: 4267898.9775
    • config_name: scala
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 3270129.05
        • num_examples: 1465
        • download_size: 1607389
        • dataset_size: 3270129.05
    • config_name: shell
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 3212433.444
        • num_examples: 1402
        • download_size: 1737402
        • dataset_size: 3212433.444
    • config_name: swift
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4690656.537
        • num_examples: 1722
        • download_size: 2005364
        • dataset_size: 4690656.537
    • config_name: typescript
      • 特征: 如上
      • 训练集信息:
        • num_bytes: 4155557.285
        • num_examples: 1705
        • download_size: 2065707
        • dataset_size: 4155557.285

数据集标签

  • 标签: code
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作