cassanof/CodeEditSearch
收藏Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/cassanof/CodeEditSearch
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为CodeEditSearch,是从CommitPackFT数据集中构建的,包含了约1500个提交的差异(diff),涵盖了多种编程语言,如Python、JavaScript、TypeScript、Go、Ruby、Java、PHP、C、C++、Rust、Swift、Scala和Bash。数据集的目标是评估模型在给定指令的情况下检索差异的能力。每个配置(config)都包含多个特征(features),如after、before、diff、instruction、license、repos和commit,并且每个配置都有一个训练集(train split),包含了不同数量的样本和字节大小。
该数据集名为CodeEditSearch,是从CommitPackFT数据集中构建的,包含了约1500个提交的差异(diff),涵盖了多种编程语言,如Python、JavaScript、TypeScript、Go、Ruby、Java、PHP、C、C++、Rust、Swift、Scala和Bash。数据集的目标是评估模型在给定指令的情况下检索差异的能力。每个配置(config)都包含多个特征(features),如after、before、diff、instruction、license、repos和commit,并且每个配置都有一个训练集(train split),包含了不同数量的样本和字节大小。
提供机构:
cassanof
原始信息汇总
数据集概述
数据集名称
- 名称: CodeEditSearch
许可证
- 许可证: MIT
数据集特征
- 特征列表:
- after: 数据类型为string
- before: 数据类型为string
- diff: 数据类型为string
- instruction: 数据类型为string
- license: 数据类型为string
- repos: 数据类型为string
- commit: 数据类型为string
数据集配置
- 配置列表:
- config_name: c
- 特征: 如上
- 训练集信息:
- num_bytes: 4158322.23
- num_examples: 1590
- download_size: 2035558
- dataset_size: 4158322.23
- config_name: c++
- 特征: 如上
- 训练集信息:
- num_bytes: 5312874.125
- num_examples: 1690
- download_size: 2326229
- dataset_size: 5312874.125
- config_name: go
- 特征: 如上
- 训练集信息:
- num_bytes: 4383070.38
- num_examples: 1752
- download_size: 2251777
- dataset_size: 4383070.38
- config_name: java
- 特征: 如上
- 训练集信息:
- num_bytes: 4773885.306
- num_examples: 1756
- download_size: 2199832
- dataset_size: 4773885.306
- config_name: javascript
- 特征: 如上
- 训练集信息:
- num_bytes: 4047063.3755
- num_examples: 1711
- download_size: 2129053
- dataset_size: 4047063.3755
- config_name: php
- 特征: 如上
- 训练集信息:
- num_bytes: 4369481.745
- num_examples: 1745
- download_size: 2101446
- dataset_size: 4369481.745
- config_name: python
- 特征: 如上
- 训练集信息:
- num_bytes: 4140224.83
- num_examples: 1645
- download_size: 2139718
- dataset_size: 4140224.83
- config_name: ruby
- 特征: 如上
- 训练集信息:
- num_bytes: 4551232.455
- num_examples: 1617
- download_size: 2186935
- dataset_size: 4551232.455
- config_name: rust
- 特征: 如上
- 训练集信息:
- num_bytes: 4267898.9775
- num_examples: 1695
- download_size: 2077686
- dataset_size: 4267898.9775
- config_name: scala
- 特征: 如上
- 训练集信息:
- num_bytes: 3270129.05
- num_examples: 1465
- download_size: 1607389
- dataset_size: 3270129.05
- config_name: shell
- 特征: 如上
- 训练集信息:
- num_bytes: 3212433.444
- num_examples: 1402
- download_size: 1737402
- dataset_size: 3212433.444
- config_name: swift
- 特征: 如上
- 训练集信息:
- num_bytes: 4690656.537
- num_examples: 1722
- download_size: 2005364
- dataset_size: 4690656.537
- config_name: typescript
- 特征: 如上
- 训练集信息:
- num_bytes: 4155557.285
- num_examples: 1705
- download_size: 2065707
- dataset_size: 4155557.285
- config_name: c
数据集标签
- 标签: code



