chathuranga-jayanath/context-5-rhino-finmath-times4j-html-mavendoxia-wro4j-guava-supercsv-len-20000-prompt-3
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chathuranga-jayanath/context-5-rhino-finmath-times4j-html-mavendoxia-wro4j-guava-supercsv-len-20000-prompt-3
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: filepath
dtype: string
- name: start_bug_line
dtype: int64
- name: end_bug_line
dtype: int64
- name: bug
dtype: string
- name: fix
dtype: string
- name: ctx
dtype: string
splits:
- name: train
num_bytes: 85202039
num_examples: 77473
- name: validation
num_bytes: 10678909
num_examples: 9684
- name: test
num_bytes: 10638644
num_examples: 9684
download_size: 32863319
dataset_size: 106519592
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
#### 数据特征
本数据集涵盖以下7个字段:
1. 字段名:id,数据类型:int64,为数据唯一标识
2. 字段名:filepath,数据类型:字符串(string),指代目标代码文件的存储路径
3. 字段名:start_bug_line,数据类型:int64,用于标识缺陷代码的起始行号
4. 字段名:end_bug_line,数据类型:int64,用于标识缺陷代码的结束行号
5. 字段名:bug,数据类型:string,存储存在缺陷的代码段
6. 字段名:fix,数据类型:string,存储针对缺陷的修复代码段
7. 字段名:ctx,数据类型:string,存储代码上下文片段
#### 数据集划分
数据集共划分为三个子集:
- 训练集(train):占用字节数85202039,共含77473条样本
- 验证集(validation):占用字节数10678909,共含9684条样本
- 测试集(test):占用字节数10638644,共含9684条样本
#### 整体规模
本数据集的下载总大小为32863319字节,总存储大小为106519592字节。
#### 配置信息
默认配置(config_name: default)对应的数据集文件路径如下:
- 训练集:对应路径`data/train-*`
- 验证集:对应路径`data/validation-*`
- 测试集:对应路径`data/test-*`
提供机构:
chathuranga-jayanath
原始信息汇总
数据集概述
特征信息
- id: 数据类型为
int64 - filepath: 数据类型为
string - start_bug_line: 数据类型为
int64 - end_bug_line: 数据类型为
int64 - bug: 数据类型为
string - fix: 数据类型为
string - ctx: 数据类型为
string
数据分割
- train:
- 字节数: 85202039
- 样本数: 77473
- validation:
- 字节数: 10678909
- 样本数: 9684
- test:
- 字节数: 10638644
- 样本数: 9684
数据集大小
- 下载大小: 32863319 字节
- 数据集大小: 106519592 字节
配置信息
- config_name: default
- data_files:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- data_files:



