fals3/methods2test_small
收藏Hugging Face2024-06-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/fals3/methods2test_small
下载链接
链接失效反馈官方服务:
资源简介:
微软创建的methods2test数据集,包含了Java JUnit测试用例及其对应的焦点方法。这些数据是从GitHub上的91K个开源Java项目中提取的,共包含780k对JUnit测试用例和焦点方法。该数据集是methods2test数据集的一个较小子集,提供了基于原始源代码的不同上下文级别的访问(例如,保留了换行符)。测试用例和相关类也可用。该子集是通过从每个91k项目中随机选择一个样本创建的。测试用例和焦点方法之间的映射基于启发式规则和Java开发者的最佳实践。
微软创建的methods2test数据集,包含了Java JUnit测试用例及其对应的焦点方法。这些数据是从GitHub上的91K个开源Java项目中提取的,共包含780k对JUnit测试用例和焦点方法。该数据集是methods2test数据集的一个较小子集,提供了基于原始源代码的不同上下文级别的访问(例如,保留了换行符)。测试用例和相关类也可用。该子集是通过从每个91k项目中随机选择一个样本创建的。测试用例和焦点方法之间的映射基于启发式规则和Java开发者的最佳实践。
提供机构:
fals3
原始信息汇总
数据集概述
该数据集由Microsoft创建,包含Java JUnit测试用例及其对应的焦点方法。数据集包含78万个JUnit测试用例和焦点方法对,这些对是从GitHub上托管的9.1万个Java开源项目中提取的。这是一个较小的组合版本子集,提供了基于原始源代码的不同上下文级别(例如,保留换行符)的便捷访问。测试用例及其关联类也提供。
数据集配置
数据集包含多个配置,每个配置包含训练、测试和验证数据文件。以下是各配置的详细信息:
配置 fm
- 特征:
id: 字符串text: 字符串
- 分割:
train: 4696431字节, 7440个样本test: 642347字节, 1017个样本validation: 662917字节, 953个样本
- 下载大小: 2633268字节
- 数据集大小: 6001695字节
配置 fm+fc
- 特征:
id: 字符串text: 字符串
- 分割:
train: 5387123字节, 7440个样本test: 738049字节, 1017个样本validation: 757167字节, 953个样本
- 下载大小: 2925807字节
- 数据集大小: 6882339字节
配置 fm+fc+c
- 特征:
id: 字符串text: 字符串
- 分割:
train: 5906873字节, 7440个样本test: 820149字节, 1017个样本validation: 824441字节, 953个样本
- 下载大小: 3170873字节
- 数据集大小: 7551463字节
配置 fm+fc+c+m
- 特征:
id: 字符串text: 字符串
- 分割:
train: 11930672字节, 7440个样本test: 1610045字节, 1017个样本validation: 1553249字节, 953个样本
- 下载大小: 5406454字节
- 数据集大小: 15093966字节
配置 fm+fc+c+m+f
- 特征:
id: 字符串text: 字符串
- 分割:
train: 12722890字节, 7440个样本test: 1713683字节, 1017个样本validation: 1654607字节, 953个样本
- 下载大小: 5753116字节
- 数据集大小: 16091180字节
配置 fm+fc+c+m+f+t+tc
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 18332635字节, 7440个样本test: 2461169字节, 1017个样本validation: 2510969字节, 953个样本
- 下载大小: 8280985字节
- 数据集大小: 23304773字节
配置 fm+fc+c+m+t+tc
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 17537661字节, 7440个样本test: 2357359字节, 1017个样本validation: 2409506字节, 953个样本
- 下载大小: 8178222字节
- 数据集大小: 22304526字节
配置 fm+fc+c+t+tc
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 11445562字节, 7440个样本test: 1565365字节, 1017个样本validation: 1676986字节, 953个样本
- 下载大小: 5944482字节
- 数据集大小: 14687913字节
配置 fm+fc+t+tc
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 10923038字节, 7440个样本test: 1483265字节, 1017个样本validation: 1609296字节, 953个样本
- 下载大小: 5715335字节
- 数据集大小: 14015599字节
配置 fm+t
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 8889443字节, 7440个样本test: 1207763字节, 1017个样本validation: 1336798字节, 953个样本
- 下载大小: 4898458字节
- 数据集大小: 11434004字节
配置 fm_indented
- 特征:
id: 字符串text: 字符串
- 分割:
train: 5054397字节, 7440个样本test: 692948字节, 1017个样本validation: 714462字节, 953个样本
- 下载大小: 2703115字节
- 数据集大小: 6461807字节
配置 t
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 4316096字节, 7440个样本test: 582266字节, 1017个样本validation: 689647字节, 953个样本
- 下载大小: 2434024字节
- 数据集大小: 5588009字节
配置 t+tc
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 5648321字节, 7440个样本test: 761386字节, 1017个样本validation: 867350字节, 953个样本
- 下载大小: 3024686字节
- 数据集大小: 7277057字节
配置 t_indented
- 特征:
id: 字符串source: 字符串target: 字符串
- 分割:
train: 4606253字节, 7440个样本test: 623576字节, 1017个样本validation: 734221字节, 953个样本
- 下载大小: 2496661字节
- 数据集大小: 5964050字节
数据集模式
数据集包含多种上下文级别的表示,具体如下:
fm: 焦点方法fm+fc: 焦点方法 + 焦点类名fm+fc+c: 焦点方法 + 焦点类名 + 构造函数签名fm+fc+c+m: 焦点方法 + 焦点类名 + 构造函数签名 + 公共方法签名fm+fc+c+m+f: 焦点方法 + 焦点类名 + 构造函数签名 + 公共方法签名 + 公共字段
每个焦点上下文还提供了测试用例及其类名。



