LTLf Learning Benchmarks

github2025-07-09 更新2025-07-30 收录

下载链接：

https://github.com/SynthesisLab/LTLf_Learning_Benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含10个LTLf学习基准家族，提供了生成实例的脚本，并包含超过15,000个学习问题，总计2GB的文件。基准文件以JSON格式结构化，每个文件代表一个学习问题。每个问题提供一组正负轨迹，分别位于`positive_traces`和`negative_traces`键下。每个轨迹是一个字典，其中键是原子命题，值是表示命题在每个步骤中真值分配的二进制值列表。

This repository contains 10 LTLf learning benchmark families, accompanied by scripts for generating instances, and includes over 15,000 learning problems with a total file size of 2 GB. The benchmark files are structured in JSON format, with each file representing a single learning problem. Each learning problem provides a set of positive and negative traces, which are stored under the `positive_traces` and `negative_traces` keys respectively. Each trace is a dictionary, where the keys are atomic propositions and the values are lists of binary values indicating the truth assignment of each proposition at each step.

创建时间：

2025-07-08

原始信息汇总

LTLf Learning Benchmarks 数据集概述

数据集基本信息

数据集名称: LTLf Learning Benchmarks
数据量: 超过15,000个学习问题，原始文件2GB，压缩后100MB
数据格式: JSON格式

数据结构

核心字段:
- positive_traces: 正例轨迹集合
- negative_traces: 反例轨迹集合
- atomic_propositions: 使用的原子命题列表
元数据字段:
- 数量统计: number_traces, number_positive_traces, number_negative_traces, max_length_traces
- 类型标识: trace_type
- 来源信息: smallest_known_formula, generating_formula, generating_seed, original_repository, name, parameters

数据生成方法

主要脚本: sample.py
输入: 包含公式的文本文件
生成方式: 通过编译LTL公式为确定性自动机进行均匀随机采样

仓库结构

Fixed_Formulas

核心文件: formulas.txt（包含公式、原子命题和名称的三元组）
生成建议参数:
- 轨迹数量(X): few=5, much=20, many=100
- 轨迹长度(Y): short=16, medium=32, long=64

Generating_Instances

包含脚本: gen_X.py（X为特定算法名称）
算法来源:
- Hamming: 来自VFB
- OrderedSequence: 来自Syntcomp
- Subword: 来自Scarlet
- Subset: 来自Scarlet和Syntcomp
- RandomBooleanCombinationsofFactors: 本论文新增

Generating_Formulas

包含脚本: gen_X.py（X为特定算法名称）
算法来源:
- SingleCounter/DoubleCounter/Nim: 来自finite-synthesis
- RandomConjunctsFromBasis: 基于Symbolic LTLf Synthesis论文

搜集汇总

数据集介绍

构建方式

LTLf Learning Benchmarks数据集通过系统化的方法构建，涵盖了10个不同的学习基准家族。其构建过程依赖于脚本生成实例，支持通过调整参数控制轨迹数量和长度。数据集采用JSON格式存储，每个文件代表一个学习问题，包含正负轨迹集合及元数据信息。构建过程中借鉴了Scarlet等工具的方法，将LTL公式编译为确定性自动机以实现轨迹采样，确保了数据的多样性和复杂性。

特点

该数据集包含超过15,000个学习问题，总数据量达2GB，压缩后仅100MB。其核心特点在于丰富的轨迹表示，每条轨迹以原子命题的二进制赋值序列呈现，并附带详细的统计元数据。数据集特别设计了不同难度级别的实例，包括固定公式生成的基准案例和特定家族构建的复杂问题，为LTLf学习算法提供了全面的评估基准。轨迹类型严格限定为有限轨迹，且每个问题都标注了生成公式和种子信息，保证了实验的可重复性。

使用方法

使用该数据集时，可通过sample.py脚本根据输入公式生成学习实例，支持自定义轨迹数量和长度参数。数据集按功能分为固定公式、生成实例和生成公式三大模块，研究者可根据需要选择不同复杂度的测试案例。对于高级应用，可调用各家族专属的gen_X.py脚本生成特定类型的公式或实例。JSON结构的设计便于直接解析，其中positive_traces和negative_traces字段为监督学习提供了标准化的训练数据，而原子命题列表和轨迹统计信息则方便进行特征工程分析。

背景与挑战

背景概述

LTLf Learning Benchmarks数据集由多个研究团队共同构建，旨在为有限线性时序逻辑（LTLf）学习提供标准化的评估基准。该数据集汇集了来自Scarlet、SYNTCOMP、finite-synthesis等多个知名项目的公式与实例，覆盖了10种不同的LTLf问题家族。其核心研究问题聚焦于如何高效地从有限轨迹中学习LTLf公式，这对形式化方法、程序合成和人工智能规划等领域具有重要理论价值与应用潜力。数据集通过结构化JSON格式存储了超过15,000个学习问题，每个问题包含正负轨迹样本及元数据，为算法验证提供了丰富素材。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，LTLf公式学习需解决轨迹稀疏性、逻辑表达复杂性以及学习算法可扩展性等难题，尤其当原子命题数量增加时，搜索空间呈指数级增长；在构建过程中，需平衡不同问题家族的难度分布，确保生成轨迹既能反映真实场景又具备计算可处理性，同时还需协调多源数据的格式统一与元数据标注。生成脚本需处理随机采样与特定模式轨迹的兼容性问题，这对基准的全面性与公平性提出了较高要求。

常用场景

经典使用场景

在形式化方法与自动机理论领域，LTLf Learning Benchmarks数据集为研究者提供了丰富的有限线性时序逻辑（LTLf）学习问题实例。该数据集通过生成包含正负样本的轨迹集合，成为验证新型学习算法性能的黄金标准。其多参数生成机制支持从简单模式到复杂布尔组合的梯度测试，尤其适合评估模型在轨迹长度和命题数量变化时的泛化能力。

衍生相关工作

该数据集已催生多个里程碑式研究，包括基于Scarlet框架的神经符号学习方法、结合GPU加速的VFB算法等。其衍生工作覆盖了从基础理论（如Syntcomp竞赛中的公式合成）到工程实践（如finite-synthesis项目中的计数器系统验证）的完整链条，相关成果发表在CAV、TACAS等顶级会议。

数据集最近研究