RegexCompositionBench

Name: RegexCompositionBench
Creator: 普渡大学，美国
Published: 2025-03-26 22:25:27
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

http://arxiv.org/abs/2503.20579v1

下载链接

链接失效反馈

官方服务：

资源简介：

RegexCompositionBench是一个大规模的语料库，包含了来自生产级软件项目和互联网源的正则表达式及其相关的测试套件。该数据集用于评估正则表达式的重用和合成策略，旨在解决正则表达式组合任务中的自动化问题，并为开发者提供选择正则表达式组合策略的指导。

RegexCompositionBench is a large-scale corpus containing regular expressions and their associated test suites sourced from production-grade software projects and internet sources. This dataset is designed to evaluate regular expression reuse and synthesis strategies, aiming to resolve automation challenges in regular expression composition tasks and provide guidance for developers when selecting appropriate regular expression composition strategies.

提供机构：

普渡大学，美国

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

RegexCompositionBench数据集的构建过程体现了严谨的科学方法论。研究团队从GitHub和RegExLib两大来源系统性地采集了55,137个独特的正则表达式任务及其解决方案。针对软件包生态系统（Java/JavaScript/Python），采用动态运行时监测技术捕获正则表达式的执行上下文；对于网络资源则通过爬取获取正则表达式及对应示例字符串。为确保数据质量，团队实施了严格的预过滤流程，剔除不符合要求的测试套件，并采用Cochran抽样公式进行分层抽样，最终形成包含11,042个测试套件的评估数据集。

特点

该数据集的核心价值在于其多维度的标注体系：每个正则表达式都配有完整的测试套件（正负示例字符串），并标注了语法树结构、语义近似度等深度特征。特别值得注意的是，研究者创新性地设计了'帮助度'指标，量化正则表达式解决方案的约束平衡性。数据集覆盖了全匹配和部分匹配两种典型场景，且来源涵盖生产级软件项目（51,414个）和互联网资源（3,723个），具有显著的生态效度和实践指导意义。

使用方法

使用本数据集时，研究者可通过三种典型路径展开工作：其一，作为基准测试平台评估不同正则表达式生成策略（重用/形式化合成/生成式AI）的性能；其二，利用其丰富的测试套件进行正则表达式缺陷检测研究；其三，基于语法树编辑距离等标注数据开发代码推荐系统。数据集采用标准的JSON格式组织，每个条目包含原始正则表达式、测试用例、语法树序列化数据及自动化评估指标，支持通过编程接口进行灵活查询和分析。

背景与挑战

背景概述

RegexCompositionBench是一个专注于正则表达式（regex）组合任务的数据集，由普渡大学和密歇根大学的研究团队于2025年创建。该数据集旨在系统地评估正则表达式组合策略，包括重用、形式化合成和生成式人工智能（如大型语言模型）的效能。数据集包含从GitHub和RegExLib收集的55,137个独特的正则表达式组合任务及其解决方案，涵盖了多种编程语言和应用场景。RegexCompositionBench的创建填补了正则表达式工程实践中缺乏系统性比较的空白，为开发者和研究人员提供了宝贵的资源。

当前挑战

RegexCompositionBench面临的挑战主要包括：1) 领域问题的挑战：正则表达式组合任务因其复杂的语法和语义而难以准确实现，容易导致语义错误、性能问题和安全漏洞。2) 构建过程中的挑战：数据集的构建需要从多个来源（如开源项目和互联网资源）提取正则表达式及其测试套件，并确保其质量和多样性。此外，自动化正则表达式重用的操作化（如通过“按示例重用”方法）需要解决语义搜索和候选排序的技术难题。这些挑战使得数据集的构建和评估变得复杂且资源密集。

常用场景

经典使用场景

RegexCompositionBench数据集在正则表达式（regex）研究和开发中具有广泛的应用场景。该数据集通过收集来自GitHub和RegExLib的大量正则表达式及其测试套件，为研究者提供了一个丰富的资源库，用于评估和比较不同的正则表达式组合策略。经典的使用场景包括正则表达式的自动合成、重用策略的评估以及生成式AI模型在正则表达式生成中的性能测试。数据集中的每个正则表达式都配有详细的测试套件，确保了评估的准确性和全面性。

衍生相关工作

RegexCompositionBench数据集衍生了许多相关的研究工作和技术工具。例如，基于该数据集开发的reuse-by-example系统，首次将正则表达式重用策略形式化为一种编程示例（PbE）方法。此外，数据集还支持了多项关于生成式AI在正则表达式生成中应用的研究，如使用大型语言模型（LLMs）生成正则表达式的性能评估。其他衍生工作包括正则表达式合成工具的改进（如RFixer和Forest），以及针对正则表达式语义相似性和语法复杂性的新度量方法。这些工作共同推动了正则表达式研究和实践的进步。

数据集最近研究