five

fals3/methods2test_small

收藏
Hugging Face2024-06-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/fals3/methods2test_small
下载链接
链接失效反馈
官方服务:
资源简介:
微软创建的methods2test数据集,包含了Java JUnit测试用例及其对应的焦点方法。这些数据是从GitHub上的91K个开源Java项目中提取的,共包含780k对JUnit测试用例和焦点方法。该数据集是methods2test数据集的一个较小子集,提供了基于原始源代码的不同上下文级别的访问(例如,保留了换行符)。测试用例和相关类也可用。该子集是通过从每个91k项目中随机选择一个样本创建的。测试用例和焦点方法之间的映射基于启发式规则和Java开发者的最佳实践。

微软创建的methods2test数据集,包含了Java JUnit测试用例及其对应的焦点方法。这些数据是从GitHub上的91K个开源Java项目中提取的,共包含780k对JUnit测试用例和焦点方法。该数据集是methods2test数据集的一个较小子集,提供了基于原始源代码的不同上下文级别的访问(例如,保留了换行符)。测试用例和相关类也可用。该子集是通过从每个91k项目中随机选择一个样本创建的。测试用例和焦点方法之间的映射基于启发式规则和Java开发者的最佳实践。
提供机构:
fals3
原始信息汇总

数据集概述

该数据集由Microsoft创建,包含Java JUnit测试用例及其对应的焦点方法。数据集包含78万个JUnit测试用例和焦点方法对,这些对是从GitHub上托管的9.1万个Java开源项目中提取的。这是一个较小的组合版本子集,提供了基于原始源代码的不同上下文级别(例如,保留换行符)的便捷访问。测试用例及其关联类也提供。

数据集配置

数据集包含多个配置,每个配置包含训练、测试和验证数据文件。以下是各配置的详细信息:

配置 fm

  • 特征:
    • id: 字符串
    • text: 字符串
  • 分割:
    • train: 4696431字节, 7440个样本
    • test: 642347字节, 1017个样本
    • validation: 662917字节, 953个样本
  • 下载大小: 2633268字节
  • 数据集大小: 6001695字节

配置 fm+fc

  • 特征:
    • id: 字符串
    • text: 字符串
  • 分割:
    • train: 5387123字节, 7440个样本
    • test: 738049字节, 1017个样本
    • validation: 757167字节, 953个样本
  • 下载大小: 2925807字节
  • 数据集大小: 6882339字节

配置 fm+fc+c

  • 特征:
    • id: 字符串
    • text: 字符串
  • 分割:
    • train: 5906873字节, 7440个样本
    • test: 820149字节, 1017个样本
    • validation: 824441字节, 953个样本
  • 下载大小: 3170873字节
  • 数据集大小: 7551463字节

配置 fm+fc+c+m

  • 特征:
    • id: 字符串
    • text: 字符串
  • 分割:
    • train: 11930672字节, 7440个样本
    • test: 1610045字节, 1017个样本
    • validation: 1553249字节, 953个样本
  • 下载大小: 5406454字节
  • 数据集大小: 15093966字节

配置 fm+fc+c+m+f

  • 特征:
    • id: 字符串
    • text: 字符串
  • 分割:
    • train: 12722890字节, 7440个样本
    • test: 1713683字节, 1017个样本
    • validation: 1654607字节, 953个样本
  • 下载大小: 5753116字节
  • 数据集大小: 16091180字节

配置 fm+fc+c+m+f+t+tc

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 18332635字节, 7440个样本
    • test: 2461169字节, 1017个样本
    • validation: 2510969字节, 953个样本
  • 下载大小: 8280985字节
  • 数据集大小: 23304773字节

配置 fm+fc+c+m+t+tc

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 17537661字节, 7440个样本
    • test: 2357359字节, 1017个样本
    • validation: 2409506字节, 953个样本
  • 下载大小: 8178222字节
  • 数据集大小: 22304526字节

配置 fm+fc+c+t+tc

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 11445562字节, 7440个样本
    • test: 1565365字节, 1017个样本
    • validation: 1676986字节, 953个样本
  • 下载大小: 5944482字节
  • 数据集大小: 14687913字节

配置 fm+fc+t+tc

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 10923038字节, 7440个样本
    • test: 1483265字节, 1017个样本
    • validation: 1609296字节, 953个样本
  • 下载大小: 5715335字节
  • 数据集大小: 14015599字节

配置 fm+t

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 8889443字节, 7440个样本
    • test: 1207763字节, 1017个样本
    • validation: 1336798字节, 953个样本
  • 下载大小: 4898458字节
  • 数据集大小: 11434004字节

配置 fm_indented

  • 特征:
    • id: 字符串
    • text: 字符串
  • 分割:
    • train: 5054397字节, 7440个样本
    • test: 692948字节, 1017个样本
    • validation: 714462字节, 953个样本
  • 下载大小: 2703115字节
  • 数据集大小: 6461807字节

配置 t

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 4316096字节, 7440个样本
    • test: 582266字节, 1017个样本
    • validation: 689647字节, 953个样本
  • 下载大小: 2434024字节
  • 数据集大小: 5588009字节

配置 t+tc

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 5648321字节, 7440个样本
    • test: 761386字节, 1017个样本
    • validation: 867350字节, 953个样本
  • 下载大小: 3024686字节
  • 数据集大小: 7277057字节

配置 t_indented

  • 特征:
    • id: 字符串
    • source: 字符串
    • target: 字符串
  • 分割:
    • train: 4606253字节, 7440个样本
    • test: 623576字节, 1017个样本
    • validation: 734221字节, 953个样本
  • 下载大小: 2496661字节
  • 数据集大小: 5964050字节

数据集模式

数据集包含多种上下文级别的表示,具体如下:

  • fm: 焦点方法
  • fm+fc: 焦点方法 + 焦点类名
  • fm+fc+c: 焦点方法 + 焦点类名 + 构造函数签名
  • fm+fc+c+m: 焦点方法 + 焦点类名 + 构造函数签名 + 公共方法签名
  • fm+fc+c+m+f: 焦点方法 + 焦点类名 + 构造函数签名 + 公共方法签名 + 公共字段

每个焦点上下文还提供了测试用例及其类名。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作