five

pyMethods2Test

收藏
arXiv2025-02-08 更新2025-02-11 收录
下载链接:
https://doi.org/10.5281/zenodo.14264518
下载链接
链接失效反馈
官方服务:
资源简介:
pyMethods2Test数据集是由内布拉斯加大学林肯分校的研究人员创建的,包含大量的开源单元测试方法和对应的焦点点映射。该数据集通过挖掘GitHub上使用Pytest和unittest框架的88,846个Python项目,构建了一个包含22,662,037个测试方法和2,198,378个焦点点映射的集合。数据集以JSON格式存储,并提供焦点点生成上下文,以支持大型语言模型在测试生成任务中的训练。

The pyMethods2Test dataset was developed by researchers at the University of Nebraska–Lincoln. It contains a vast collection of open-source unit test methods and their corresponding focus point mappings. This dataset is constructed by mining 88,846 Python projects that utilize the Pytest and unittest frameworks on GitHub, resulting in a corpus of 22,662,037 test methods and 2,198,378 focus point mappings. Stored in JSON format, the dataset provides focus point generation context to support the training of large language models for test generation tasks.
提供机构:
内布拉斯加大学林肯分校
创建时间:
2025-02-08
搜集汇总
数据集介绍
main_image_url
构建方式
本研究构建了一个名为pyMethods2Test的数据集,通过挖掘超过88K个Python项目,使用抽象语法树解析源代码,并采用一系列启发式方法和字符串匹配技术,将超过2200万个测试方法映射到它们关注的焦点方法。
特点
pyMethods2Test数据集具有以下特点:包含超过2200万个测试方法到焦点方法的映射,提供了每个映射的详细上下文信息,如测试文件路径、焦点文件路径、类名、方法名、行号等;采用了JSON格式存储,便于处理;同时提供了生成焦点方法上下文的脚本。
使用方法
使用pyMethods2Test数据集时,可以直接加载JSON文件进行数据处理。对于需要生成焦点方法上下文的情况,可以运行提供的脚本生成额外上下文信息。该数据集适用于训练大型语言模型进行测试代码生成、辅助故障定位等任务。
背景与挑战
背景概述
pyMethods2Test数据集是由美国内布拉斯加大学林肯分校的Idriss Abdelmadjid和Robert Dyer研究人员于2025年创建的。该数据集旨在为Python代码生成有效的单元测试用例,弥补了Python语言在大型测试数据集方面的空白。pyMethods2Test包含了超过2200万个单元测试方法与它们所测试的焦点方法的映射,这些数据是从88,846个开源GitHub项目中挖掘得到的。该数据集的创建对于软件测试研究具有重要意义,提供了测试方法与焦点方法之间的清晰映射,有助于推动自动化测试工具的发展。
当前挑战
在构建pyMethods2Test数据集的过程中,研究人员面临了多个挑战。首先,Python的命名规范较为宽松,这为准确映射测试用例和焦点方法带来了困难。其次,数据集的构建需要处理大量的数据,包括分析超过2200万个测试方法和它们的位置信息。此外,由于Python项目中的测试文件和方法命名缺乏统一标准,研究人员不得不依赖启发式方法和字符串匹配技术来识别焦点方法。最后,尽管数据集已经覆盖了两个主要测试框架Pytest和unittest,但Python生态系统中还有其他测试框架,这限制了数据集的通用性。
常用场景
经典使用场景
pyMethods2Test数据集被广泛用于训练大型语言模型(LLM)以生成良好的Python单元测试用例。该数据集通过映射测试方法与其关注的方法,为LLM提供了丰富的训练数据,使其能够学习如何生成针对Python代码的测试。
解决学术问题
该数据集解决了Python语言在测试用例生成方面的研究问题,为学术研究提供了首个大规模的Python测试方法与关注方法映射的数据集。它的出现填补了Python测试用例生成研究的空白,对提升软件测试的自动化水平具有重要意义。
衍生相关工作
pyMethods2Test数据集的发布促进了相关研究的开展,如基于该数据集的测试用例生成框架Chatunitest,以及使用该数据集进行单元测试代码生成的研究工作。这些衍生工作进一步扩展了该数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作