stl_new
收藏Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/saracandu/stl_new
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含数学公式及其扰动变体,主要包含四个字段:原始公式(formula,字符串类型)、扰动类型(perturbation_type,字符串类型)、等价标识(equivalent,整型)和原始公式参照(original_formula,字符串类型)。数据集划分为训练集(1,982,214个样本,约615MB)和测试集(79,814个样本,约31MB),总下载大小约216MB,存储后约647MB。数据文件按默认配置分为train-*和test-*路径存储,适用于公式等价性判断或数学公式扰动分析等任务。
创建时间:
2026-02-06
原始信息汇总
数据集概述
基本信息
- 数据集名称: stl_new
- 托管平台: Hugging Face Datasets
- 页面地址: https://huggingface.co/datasets/saracandu/stl_new
数据集结构
特征(Features)
- formula: 数据类型为字符串(string)。
- perturbation_type: 数据类型为字符串(string)。
- equivalent: 数据类型为64位整数(int64)。
- original_formula: 数据类型为字符串(string)。
数据划分(Splits)
- 训练集(train):
- 样本数量: 1,982,214
- 数据大小: 615,551,059 字节
- 测试集(test):
- 样本数量: 79,814
- 数据大小: 31,601,820 字节
数据集规模
- 下载大小: 216,341,259 字节
- 数据集总大小: 647,152,879 字节
配置信息
- 默认配置(default):
- 训练集文件路径:
data/train-* - 测试集文件路径:
data/test-*
- 训练集文件路径:
搜集汇总
数据集介绍

构建方式
在形式逻辑领域,stl_new数据集的构建体现了对逻辑公式结构严谨性的追求。该数据集通过系统化地生成原始逻辑公式及其扰动变体,精心设计了公式变换机制,涵盖了多种扰动类型。每个数据样本均标注了原始公式与扰动公式之间的等价关系,形成了结构化的四元组表示。数据划分遵循机器学习标准范式,训练集与测试集的比例经过科学计算,确保了模型训练与评估的有效分离。
特点
该数据集的核心特征在于其专注于逻辑公式的语义等价性判定。数据集中每个样本包含完整的公式对及其关系标签,为研究逻辑推理的稳健性提供了丰富素材。扰动类型的多样性覆盖了逻辑表达式可能发生的常见结构变化,使得数据集能够支撑对模型泛化能力的深度检验。数据规模的庞大与结构的清晰性,共同构成了其在形式逻辑与人工智能交叉研究中的独特价值。
使用方法
使用stl_new数据集时,研究人员可将其直接应用于逻辑公式等价性判定的模型训练与评估。典型流程包括加载训练集进行模型参数学习,并利用独立的测试集衡量模型在未见数据上的性能。数据集的结构化字段允许灵活提取公式对与标签,便于构建监督学习任务。在自然语言处理与自动推理领域,该数据集可作为基准测试工具,推动对模型逻辑理解能力的系统性探索。
背景与挑战
背景概述
在形式逻辑与自动推理领域,符号化表达式的等价性判定是确保系统可靠性与一致性的核心问题。stl_new数据集由相关研究团队构建,旨在系统性地探索逻辑公式在语义扰动下的等价性保持问题。该数据集聚焦于形式化方法、程序验证及人工智能中的逻辑推理任务,通过提供大规模、结构化的公式对及其扰动类型标注,为开发鲁棒的等价性检查算法与模型奠定了数据基础。其构建反映了对逻辑系统深层语义不变性进行量化分析的迫切需求,推动了形式验证与机器学习交叉领域的实证研究进展。
当前挑战
该数据集致力于解决形式逻辑中公式等价性判定的挑战,特别是在面对语法扰动时保持语义不变性的鲁棒性验证问题。构建过程中的主要困难在于生成高质量且多样化的语义等价公式对,这需要精确控制扰动类型以避免引入逻辑谬误,同时确保数据规模足以支撑机器学习模型的训练。此外,平衡不同扰动类型的分布、保证标注的准确性,以及处理逻辑公式的复杂结构,均为数据构建带来了显著的技术障碍。
常用场景
经典使用场景
在形式逻辑与自动推理领域,STL_new数据集通过提供大量一阶逻辑公式及其扰动变体,为逻辑等价性验证任务奠定了坚实基础。该数据集常用于训练和评估机器学习模型,特别是深度学习架构,以识别公式在语义扰动下的等价关系。研究者利用其丰富的样本分布,探索模型对逻辑结构变化的鲁棒性,从而推动自动定理证明与符号推理的进展。
解决学术问题
STL_new数据集有效应对了逻辑推理中公式等价性判定的核心挑战,解决了传统方法在复杂扰动下精度不足的问题。它促进了机器学习与形式逻辑的交叉研究,为开发可处理语义细微差别的模型提供标准基准。该数据集的意义在于弥合了符号推理与统计学习之间的鸿沟,对提升人工智能的推理能力具有深远影响。
衍生相关工作
围绕STL_new数据集,已衍生出一系列经典研究工作,包括基于Transformer的等价性分类模型和结合图神经网络的逻辑表示学习框架。这些工作不仅提升了公式等价判定的性能,还拓展了数据集的用途,如将其适配于多语言逻辑任务或增强对抗性训练,进一步推动了形式化方法在AI中的集成与创新。
以上内容由遇见数据集搜集并总结生成



