stl_new

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/saracandu/stl_new

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含数学公式及其扰动变体，主要包含四个字段：原始公式（formula，字符串类型）、扰动类型（perturbation_type，字符串类型）、等价标识（equivalent，整型）和原始公式参照（original_formula，字符串类型）。数据集划分为训练集（1,982,214个样本，约615MB）和测试集（79,814个样本，约31MB），总下载大小约216MB，存储后约647MB。数据文件按默认配置分为train-*和test-*路径存储，适用于公式等价性判断或数学公式扰动分析等任务。

创建时间：

2026-02-06

原始信息汇总

数据集概述

基本信息

数据集名称: stl_new
托管平台: Hugging Face Datasets
页面地址: https://huggingface.co/datasets/saracandu/stl_new

数据集结构

特征（Features）

formula: 数据类型为字符串（string）。
perturbation_type: 数据类型为字符串（string）。
equivalent: 数据类型为64位整数（int64）。
original_formula: 数据类型为字符串（string）。

数据划分（Splits）

训练集（train）:
- 样本数量: 1,982,214
- 数据大小: 615,551,059 字节
测试集（test）:
- 样本数量: 79,814
- 数据大小: 31,601,820 字节

数据集规模

下载大小: 216,341,259 字节
数据集总大小: 647,152,879 字节

配置信息

默认配置（default）:
- 训练集文件路径: data/train-*
- 测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在形式逻辑领域，stl_new数据集的构建体现了对逻辑公式结构严谨性的追求。该数据集通过系统化地生成原始逻辑公式及其扰动变体，精心设计了公式变换机制，涵盖了多种扰动类型。每个数据样本均标注了原始公式与扰动公式之间的等价关系，形成了结构化的四元组表示。数据划分遵循机器学习标准范式，训练集与测试集的比例经过科学计算，确保了模型训练与评估的有效分离。

特点

该数据集的核心特征在于其专注于逻辑公式的语义等价性判定。数据集中每个样本包含完整的公式对及其关系标签，为研究逻辑推理的稳健性提供了丰富素材。扰动类型的多样性覆盖了逻辑表达式可能发生的常见结构变化，使得数据集能够支撑对模型泛化能力的深度检验。数据规模的庞大与结构的清晰性，共同构成了其在形式逻辑与人工智能交叉研究中的独特价值。

使用方法

使用stl_new数据集时，研究人员可将其直接应用于逻辑公式等价性判定的模型训练与评估。典型流程包括加载训练集进行模型参数学习，并利用独立的测试集衡量模型在未见数据上的性能。数据集的结构化字段允许灵活提取公式对与标签，便于构建监督学习任务。在自然语言处理与自动推理领域，该数据集可作为基准测试工具，推动对模型逻辑理解能力的系统性探索。

背景与挑战

背景概述

在形式逻辑与自动推理领域，符号化表达式的等价性判定是确保系统可靠性与一致性的核心问题。stl_new数据集由相关研究团队构建，旨在系统性地探索逻辑公式在语义扰动下的等价性保持问题。该数据集聚焦于形式化方法、程序验证及人工智能中的逻辑推理任务，通过提供大规模、结构化的公式对及其扰动类型标注，为开发鲁棒的等价性检查算法与模型奠定了数据基础。其构建反映了对逻辑系统深层语义不变性进行量化分析的迫切需求，推动了形式验证与机器学习交叉领域的实证研究进展。

当前挑战

该数据集致力于解决形式逻辑中公式等价性判定的挑战，特别是在面对语法扰动时保持语义不变性的鲁棒性验证问题。构建过程中的主要困难在于生成高质量且多样化的语义等价公式对，这需要精确控制扰动类型以避免引入逻辑谬误，同时确保数据规模足以支撑机器学习模型的训练。此外，平衡不同扰动类型的分布、保证标注的准确性，以及处理逻辑公式的复杂结构，均为数据构建带来了显著的技术障碍。

常用场景

经典使用场景

在形式逻辑与自动推理领域，STL_new数据集通过提供大量一阶逻辑公式及其扰动变体，为逻辑等价性验证任务奠定了坚实基础。该数据集常用于训练和评估机器学习模型，特别是深度学习架构，以识别公式在语义扰动下的等价关系。研究者利用其丰富的样本分布，探索模型对逻辑结构变化的鲁棒性，从而推动自动定理证明与符号推理的进展。

解决学术问题

STL_new数据集有效应对了逻辑推理中公式等价性判定的核心挑战，解决了传统方法在复杂扰动下精度不足的问题。它促进了机器学习与形式逻辑的交叉研究，为开发可处理语义细微差别的模型提供标准基准。该数据集的意义在于弥合了符号推理与统计学习之间的鸿沟，对提升人工智能的推理能力具有深远影响。

衍生相关工作

围绕STL_new数据集，已衍生出一系列经典研究工作，包括基于Transformer的等价性分类模型和结合图神经网络的逻辑表示学习框架。这些工作不仅提升了公式等价判定的性能，还拓展了数据集的用途，如将其适配于多语言逻辑任务或增强对抗性训练，进一步推动了形式化方法在AI中的集成与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集