cdm2333/OpenRegex

Name: cdm2333/OpenRegex
Creator: cdm2333
Published: 2024-06-18 17:18:18
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/cdm2333/OpenRegex

下载链接

链接失效反馈

官方服务：

资源简介：

OpenRegex数据集旨在增强小型开源LLMs生成健壮的正则表达式的能力。它包含7612个合成的提示和响应样本，其中70%来自GPT-3.5 Turbo，30%来自GPT-4。数据收集自公开可用的资源，如regex101，并以parquet和json格式提供。每个样本包含多个特征，如prompt、response、raw_title等。目前只有训练集可用。

OpenRegex intends to augment small open-source LLMs ability to generate robust regex expressions from user requests. It contains 7612 samples of synthesized prompt and response, of which 70% are from GPT-3.5 Turbo and 30% are from GPT-4. The raw data are collected from different publically available sources such as regex101. The dataset contains both parquet and json format for easy modification. Each sample contains multiple features such as prompt, response, raw_title, etc. Currently, only the train split is available.

提供机构：

cdm2333

原始信息汇总

数据集概述

OpenRegex 旨在增强小型开源 LLM 生成稳健正则表达式的能力。该数据集包含 7612 个合成提示和响应样本，其中 70% 来自 GPT-3.5 Turbo，30% 来自 GPT-4。原始数据收集自不同的公开可用来源，如 regex101。数据集包含 parquet 和 json 格式，便于修改。每个提示至少包含一个匹配示例，即使原始数据中没有匹配项。

数据结构

实例

以下是数据集的一部分示例，展示了数据集的结构： json { "prompt": "请帮助我创建一个匹配24小时时间格式的正则表达式。该表达式应匹配格式为hh:mm或hh.mm的时间，其中hh是00到23之间的数字，mm是00到59之间的数字。以下是一些应匹配的字符串示例："01.00"，"01:00"，"23.59"，"00:00"。请注意，分隔小时和分钟的冒号或句点可以是冒号或句点。", "response": "regex ^([01]?[0-9]|2[0-3])[:.][0-5][0-9]$ ", "raw_title": "24小时时间", "raw_expression": "^([0-1]?[0-9]|[2][0-3]):|.$", "raw_description": "基于Morten Henriksen的表达式，我只是添加了对.和:的检查", "matches": [ "01.00", "01:00", "23.59", "00:00" ], "non_matches": [ "2400", "0100", "14.75" ], "source_uri": "https://www.regexlib.com/REDetails.aspx?regexp_id=2333", "author": "Paul Verhulpen" }

特征

每个样本包含以下特征：

prompt：包含创建正则表达式请求的字符串。提示通常包括要匹配的示例字符串和正则表达式应捕获的特定指令。
response：LLM 响应，包含符合提示中指定标准的所需正则表达式。此字段可能还包括正则表达式组件的解释。
raw_title：可能包含正则表达式任务的标题或简短描述的可空字段。
raw_expression：合成响应所基于的原始正则表达式。
raw_description：任务的描述或创建正则表达式的初始尝试。
matches：可能包含正则表达式意图匹配的样本的可空字段。
non_matches：可能包含正则表达式不应匹配的样本的可空字段。
source_uri：收集原始数据的公开来源的URL。
author：创建正则表达式的作者，如果可追溯。

数据分割

目前仅提供训练集分割。

快速开始

python openregex = datasets.load_dataset(cdm2333/OpenRegex, split=train)

统计信息

请注意，以下所有数字均以字符为单位，而非令牌。

名称	最小长度	最大长度	平均长度
过滤长度分布	1	500	71
响应长度分布	10	2750	810
提示长度分布	47	2460	530

5,000+

优质数据集

54 个

任务类型

进入经典数据集