Shpigford/cron-schedule-conversion
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Shpigford/cron-schedule-conversion
下载链接
链接失效反馈官方服务:
资源简介:
这是一个自然语言描述的时间表与cron表达式和systemd `OnCalendar`字符串配对的数据集。数据集涵盖了多种时间表达方式,包括标准时间表、节假日、模糊时间参考、序数工作日、负规范等。数据集通过手工制作种子示例、模板生成、LLM转述和LLM新类别生成等方法构建,并经过验证。数据集还包含了一些注意事项和限制,如cron表达式的局限性、英语限制等。
A dataset of natural-language schedule descriptions paired with cron expressions and systemd `OnCalendar` strings. The dataset covers various schedule expressions including standard schedules, holidays, casual/fuzzy time references, ordinal weekdays, negative specifications, etc. The dataset was built through hand-crafted seed examples, templated generation, LLM paraphrasing, and LLM novel-category generation, and validated. It also includes caveats and limitations such as cron expression limitations, English-only restriction, etc.
提供机构:
Shpigford
搜集汇总
数据集介绍

构建方式
该数据集通过多层次混合策略构建而成。首先,手工精制约85个覆盖各类复杂调度场景的种子示例,包括节假日、模糊时间指称和序数星期等。随后,基于这些种子进行模板化组合展开,随机化时间与间隔参数以增加多样性。进一步利用大语言模型Claude Sonnet对每个种子进行释义扩增,生成约8种不同自然语言表达,同时保持cron与systemd标签不变。最后,由LLM自主生成新型调度类别,经二次语义验证剔除错误样本,所有cron表达式均通过croniter工具校验,确保语法准确无误。
特点
数据集的核心特色在于其广泛覆盖与实际可用性。它不仅涵盖日常周期性调度(如每日、每周、每N分钟),还深入处理了传统cron难以表达的复杂情形,例如“每隔一周”、“月末最后一个星期五”及“除十二月外每周二凌晨3点”,并附注释说明近似折衷。此外,数据集支持多种时间格式,包括时区标注、子分钟间隔及systemd特有属性(如OnBootSec、RandomizedDelaySec),同时容纳拼写错误与非正式措辞,极大增强了真实场景下的鲁棒性与适应性。
使用方法
数据集以标准表格形式提供,包含train、validation和test三个子集,直接通过Parquet文件加载。每条记录包含自然语言描述、等价的cron表达式、systemd OnCalendar字符串及注释字段。适用于文本生成任务的微调,尤其适合训练能够理解自然语言并转化为精确调度语法的模型。使用时需注意,对于cron无法原生支持的调度(如“每隔一周”),数据集采用最接近的有效cron并在注释中标注限制。建议在实际部署前,根据具体cron实现验证默认执行的语义一致性。
背景与挑战
背景概述
在DevOps与系统自动化领域,定时任务调度是基础设施管理的核心环节,Cron表达式与systemd的OnCalendar字符串作为两大主流调度语法,其互操作性长期依赖人工转换或特定工具支持。由Josh Pigford于2026年发布于Hugging Face的Cron Schedule Conversion数据集,旨在构建自然语言与机器可读调度格式之间的语义桥梁。该数据集覆盖了从常规周期调度到复杂节假日、模糊时间表述及复合条件等1200余组实例,通过模板化生成与LLM改写结合的方式,系统性丰富了自然语言向Cron/systemd映射的训练语料。其多源验证机制与开源许可,为文本生成模型在任务调度领域的应用提供了高精度基准数据集,显著推动了自动化运维与智能调度研究的发展。
当前挑战
该数据集面临的核心挑战在于解决Cron语法表达力的固有限制,例如“每隔一周”或“本月最后一个星期五”等周期性规则难以用标准Cron原生实现,需依赖近似表达并附加注释说明偏差。构建过程中,需应对自然语言模糊性与精确调度表达式之间的系统性歧义,如“午餐时间”被统一默认为特定时间点的合理但主观设定。同时,Vixie Cron对星期与日期域采用或逻辑匹配,而数据集默认采用与逻辑,这可能导致不同实现环境下的行为差异。此外,LLM生成实例的语义准确性验证成本较高,需通过二次校验淘汰错误样本,亚分钟间隔及多行复合调度场景的标准化表达亦增加了构建复杂度。
常用场景
经典使用场景
在自然语言处理与自动化运维的交叉领域中,cron-schedule-conversion数据集为文本到计划表达式的转换任务提供了标准化的训练与评估基准。该数据集的核心应用场景是将人类日常使用的模糊时间描述(如“每个周二凌晨三点,十二月除外”)精准映射为计算机可解析的cron表达式和systemd OnCalendar字符串。这一过程不仅要求模型理解复杂的时间语义,还需处理节假日、序数星期(如“第二个星期四”)、否定条件(如“除周日外每天”)以及不规则的间隔(如“每90分钟”)等特殊情形,从而为构建智能化的计划调度助手奠定数据基础。
解决学术问题
该数据集系统性地解决了自然语言与结构化定时表达式之间语义鸿沟的学术难题。传统cron表达式的编写高度依赖专家知识,且容易出错;而现有自然语言理解研究多聚焦于通用语义解析,缺乏对时间调度领域特有的语义规约(如Vixie cron中DOM与DOW的AND/OR匹配歧义、子分钟间隔的局限性)的深度建模。cron-schedule-conversion通过提供包含900余条高质量、多样性例子的平行语料,使得研究者能够训练模型在模糊性中做出合理且可解释的抉择,推动了从非正式语言到精确计划形式化描述的可泛化转换研究。
衍生相关工作
该数据集衍生了一系列值得关注的后续工作,包括对自然语言调度描述的多语言扩展研究,以及结合上下文感知的歧义消歧模型。研究者基于该数据集构建了利用大语言模型(如Claude Sonnet)的少样本学习框架,探索在cron无法精确表达的场景下如何通过note字段给出透明化建议。此外,有工作聚焦于时间表达式纠错与鲁棒性增强,针对数据集中包含的拼写错误和非正式短语设计对抗训练策略。这些衍生研究共同推动了自然语言与系统调度之间双向转换的实用性与鲁棒性发展,也为更广泛的非结构化文本到形式化规约的转换任务提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



