TLAi+Bench

github2025-09-05 更新2025-09-06 收录

下载链接：

https://github.com/tlaplus/TLAiBench

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于评估大型语言模型在TLA+形式化规范任务上的数据集和基准测试套件，包含逻辑谜题和真实场景，支持一致的LLM评估、工具开发、代理工作流开发、研究推进和教育资源

This is a dataset and benchmark suite dedicated to evaluating large language models (LLMs) on TLA+ formal specification tasks. It includes logic puzzles and real-world scenarios, and supports consistent LLM evaluation, tool development, agent workflow development, research advancement, as well as serving as educational resources.

创建时间：

2025-08-07

原始信息汇总

TLAi+Bench 数据集概述

数据集简介

TLAi+Bench是一个用于评估大型语言模型在TLA+形式化规范任务上性能的数据集和基准测试套件，包含逻辑谜题和现实场景。

主要目的

实现一致的大型语言模型评估
为AI辅助TLA+开发工具提供参考基准
支持工具化自主代理工作流开发
推动形式化方法与AI研究的进步
提供通过实际问题学习TLA+的教育资源

数据集结构

puzzles/：自然语言描述的问题
- 包含9个经典逻辑谜题和并发问题
gold/：参考TLA+规范
- 包含6个黄金标准规范文件
genaisrc/：AI生成脚本和工具
- 包含主要的自然语言到TLA+转换脚本

问题类别

逻辑谜题：需要约束建模的经典问题
并发问题：多进程协调挑战
算法问题：计算过程的形式化规范
游戏与策略：决策制定和博弈论
数学问题：递归和数学结构
模拟问题：动态系统建模

评估标准

反例分析：模型检查时是否产生预期的反例
精化检查：合成规范是否精化黄金标准规范
行为等价性：允许的行为是否与黄金标准一致
属性满足性：是否满足相同的安全性和活性属性

许可证

MIT许可证

搜集汇总

数据集介绍

构建方式

在形式化方法领域，TLAi+Bench数据集的构建体现了系统化工程思维。该数据集通过整合TLA+社区倡议与TLAi+挑战赛的成果，采用双轨制构建策略：一方面收录经典逻辑谜题和现实场景的自然语言描述，包括河内塔、哲学家就餐等九类典型问题；另一方面由领域专家编写对应的黄金标准TLA+规范，确保形式化语义的精确性。构建过程严格遵循模块化原则，将问题描述、参考规范和生成脚本分别存放于puzzles、gold和genaisrc目录，形成层次清晰的结构化体系。

使用方法

使用本数据集需建立完整的TLA+开发环境，包括VSCode扩展工具链和Node.js运行时。研究者可通过GenAIScript脚本自动执行从自然语言到TLA+规范的转换流程，该脚本支持多模型配置和头部运行模式。评估流程遵循四阶段范式：首先选择目标谜题，接着生成形式化规范，然后使用TLC模型检查器进行验证，最后与黄金标准进行行为等价性比对。数据集特别支持基于GitHub Copilot的云端推理和本地模型部署两种使用方式，为不同资源条件的研究者提供适配方案。

背景与挑战

背景概述

TLAi+Bench数据集由TLA+社区与TLA+基金会于2025年联合创建，旨在系统评估大语言模型在形式化规约任务中的表现。该数据集源于社区对标准化基准测试的迫切需求，结合了经典逻辑谜题与真实场景的TLA+规约任务，覆盖并发、算法、博弈论等多个核心研究领域。其影响力不仅推动了形式化方法与人工智能的交叉研究，还为AI辅助开发工具提供了可靠的评估基础，显著促进了自主智能体在形式化验证方面的发展。

当前挑战

该数据集主要解决形式化规约自动生成的挑战，包括自然语言到TLA+规约的精确转换、并发系统行为的正确建模以及复杂约束的逻辑一致性维护。构建过程中的挑战体现在多维度：需确保黄金标准规约的语义准确性与完备性，协调社区贡献的异构问题描述，以及开发可复用的自动化评估流程以支持不同大语言模型的公平比较。

常用场景

经典使用场景

在形式化方法研究领域，TLAi+Bench数据集为评估大语言模型在TLA+规范任务上的表现提供了系统化基准。该数据集通过逻辑谜题和现实场景的结合，支持研究者对模型进行约束建模、并发协调和算法形式化等多维度测试，例如经典哲学家就餐问题与河内塔递归结构的规范生成，为模型能力评估建立了标准化框架。

解决学术问题

该数据集有效解决了形式化方法与人工智能交叉领域的核心学术问题，包括大语言模型在形式规范生成中的一致性验证、行为等价性检验以及精化关系判定。通过提供黄金标准规范与自动化评估流程，它推动了AI辅助形式化开发工具的发展，并为构建能够迭代开发、验证和优化形式规约的自主智能体奠定了理论基础。

实际应用

在实际应用层面，TLAi+Bench为工业级形式化开发提供了重要支撑。它可用于开发AI辅助的TLA+集成开发环境，提升复杂系统（如分布式协议与并发控制机制）的规范编写效率。此外，该数据集还服务于教育领域，通过结构化的谜题案例帮助学习者掌握形式化规范的实际编写技巧，降低形式化方法的学习门槛。

数据集最近研究