cdm2333/OpenRegex
收藏数据集概述
OpenRegex 旨在增强小型开源 LLM 生成稳健正则表达式的能力。该数据集包含 7612 个合成提示和响应样本,其中 70% 来自 GPT-3.5 Turbo,30% 来自 GPT-4。原始数据收集自不同的公开可用来源,如 regex101。数据集包含 parquet 和 json 格式,便于修改。每个提示至少包含一个匹配示例,即使原始数据中没有匹配项。
数据结构
实例
以下是数据集的一部分示例,展示了数据集的结构: json { "prompt": "请帮助我创建一个匹配24小时时间格式的正则表达式。该表达式应匹配格式为hh:mm或hh.mm的时间,其中hh是00到23之间的数字,mm是00到59之间的数字。以下是一些应匹配的字符串示例:"01.00","01:00","23.59","00:00"。请注意,分隔小时和分钟的冒号或句点可以是冒号或句点。", "response": "regex ^([01]?[0-9]|2[0-3])[:.][0-5][0-9]$ ", "raw_title": "24小时时间", "raw_expression": "^([0-1]?[0-9]|[2][0-3]):|.$", "raw_description": "基于Morten Henriksen的表达式,我只是添加了对.和:的检查", "matches": [ "01.00", "01:00", "23.59", "00:00" ], "non_matches": [ "2400", "0100", "14.75" ], "source_uri": "https://www.regexlib.com/REDetails.aspx?regexp_id=2333", "author": "Paul Verhulpen" }
特征
每个样本包含以下特征:
prompt:包含创建正则表达式请求的字符串。提示通常包括要匹配的示例字符串和正则表达式应捕获的特定指令。response:LLM 响应,包含符合提示中指定标准的所需正则表达式。此字段可能还包括正则表达式组件的解释。raw_title:可能包含正则表达式任务的标题或简短描述的可空字段。raw_expression:合成响应所基于的原始正则表达式。raw_description:任务的描述或创建正则表达式的初始尝试。matches:可能包含正则表达式意图匹配的样本的可空字段。non_matches:可能包含正则表达式不应匹配的样本的可空字段。source_uri:收集原始数据的公开来源的URL。author:创建正则表达式的作者,如果可追溯。
数据分割
目前仅提供训练集分割。
快速开始
python openregex = datasets.load_dataset(cdm2333/OpenRegex, split=train)
统计信息
请注意,以下所有数字均以字符为单位,而非令牌。
| 名称 | 最小长度 | 最大长度 | 平均长度 |
|---|---|---|---|
| 过滤长度分布 | 1 | 500 | 71 |
| 响应长度分布 | 10 | 2750 | 810 |
| 提示长度分布 | 47 | 2460 | 530 |



