five

lemexp-commerical-llm-experiment

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/yalhessi/lemexp-commerical-llm-experiment
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,主要涉及数学理论或形式化证明相关的数据。每个配置包含以下字段:理论文件(theory_file)、引理名称(lemma_name)、引理命令(lemma_command)、引理对象(lemma_object)、模板(template)、符号列表(symbols)、类型列表(types)、定义列表(defs)、输出键(output_key)、输入(input)和输出(output)。数据集分为训练集(train)和测试集(test),每个集的大小以字节数和示例数给出。具体配置包括八元数(octonions)和排名交换距离(rankings_swap_distance)的相关数据,以及它们的变体(如无定义或无类型版本)。
创建时间:
2026-05-06
原始信息汇总

数据集概述:lemexp-commerical-llm-experiment

该数据集是一个用于商业LLM实验的数学定理相关数据集,包含多个配置(config),每个配置包含不同主题和变体的数据。

数据集配置与划分

数据集共包含 16个配置,主要围绕两个数学主题:八元数(octonions)排名交换距离(rankings_swap_distance),均涉及2026年的实验。

每个配置的数据都具有相同的特征字段,但部分配置(如带 _nodefs_notypes 后缀)为去除定义或类型的变体。

数据特征(Features)

每个配置的数据均包含以下字段(部分原始配置无 output_key, input, output 字段):

字段名 数据类型 说明
theory_file string 理论文件
lemma_name string 引理名称
lemma_command string 引理命令
lemma_object string 引理对象
template string 模板
symbols list of string 符号列表
types list of string 类型列表
defs list of string 定义列表
output_key string 输出键(仅部分配置)
input string 输入(仅部分配置)
output string 输出(仅部分配置)

数据划分与规模

数据集包含 训练集(train)测试集(test) 两种划分,各配置的具体规模如下:

八元数(octonions)相关配置

配置名称 划分 样本数 数据集大小
lemma_object_octonions_2026 test 350 714,445 bytes
lemma_object_octonions_2026_nodefs test 350 526,793 bytes
lemma_object_octonions_2026_notypes test 350 668,219 bytes
template_octonions_2026 test 350 715,644 bytes
template_octonions_2026_nodefs test 350 527,992 bytes
template_octonions_2026_notypes test 350 669,418 bytes
octonions_2026_raw train 350 407,129 bytes

排名交换距离(rankings_swap_distance)相关配置

配置名称 划分 样本数 数据集大小
lemma_object_rankings_swap_distance_2026 test 139 321,786 bytes
lemma_object_rankings_swap_distance_2026_nodefs test 139 251,188 bytes
lemma_object_rankings_swap_distance_2026_notypes test 139 288,483 bytes
template_rankings_swap_distance_2026 test 139 317,951 bytes
template_rankings_swap_distance_2026_nodefs test 139 247,353 bytes
template_rankings_swap_distance_2026_notypes test 139 284,648 bytes
rankings_swap_distance_2026_raw train 139 180,938 bytes
rankings_swap_distance_with_source train 139 184,174 bytes

数据文件格式

所有数据文件均以Parquet格式存储,各配置的文件路径为对应配置名称下的 {split}-* 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集围绕形式化数学理论中的引理对象与模板构建,选取了八元数(octonions)与排序互换距离(rankings swap distance)两大主题。原始配置(如octonions_2026_raw)仅包含理论文件、引文名称、命令、对象、模板、符号、类型及定义等基础字段,而实验配置(如lemma_object_octonions_2026)在此基础上引入了输出键、输入与输出字段,形成了结构化的问题-答案对。为探究不同信息维度对模型性能的影响,数据集进一步设计了去除定义(_nodefs)与去除类型(_notypes)的消融变体,使得每个主题下均存在针对同一引文的多个对比配置。最终,每个样本以测试集形式存储,确保评估的独立性与可复现性。
特点
该数据集最显著的特点在于其精细的消融实验设计。围绕八元数与排序互换距离两个数学领域,数据集提供了完整的引文信息组合,并针对性剔除定义或类型信息,构建出三种对比状态:完整信息、无定义、无类型。此外,数据集还区分了以引理对象为预测目标和以模板为预测目标的配置变体,例如lemma_object_octonions_2026与template_octonions_2026,使得评测维度更加丰富。所有样本均来源于形式化数学理论,确保了数据的高逻辑性与结构规范性,测试集规模分别为350条(八元数)与139条(排序互换距离),兼顾了评测的充分性与效率。
使用方法
用户可通过HuggingFace Datasets库加载该数据集,根据研究目标选择特定配置名称,例如`load_dataset('lemexp-commerical-llm-experiment', 'lemma_object_octonions_2026')`以获取完整的引理对象预测任务。数据集以测试集形式提供,适用于评估语言模型在形式化引文生成任务上的推理能力。通过对比不同消融配置(如_nodefs与_notypes)下的模型表现,研究者可以量化定义与类型信息对输出质量的贡献。此外,raw配置可作为训练数据使用,而实验配置则专为测试设计,便于研究者依据需求灵活划分训练与评估流程。
背景与挑战
背景概述
在人工智能与定理证明交叉领域,形式化数学推理始终是衡量机器逻辑推理能力的重要试金石。lemexp-commerical-llm-experiment数据集于2026年由相关研究团队构建,聚焦于八元数代数理论与排名交换距离等数学命题的形式化推演。该数据集以LEM(一种底层逻辑表达机制)为框架,设计了包含理论文件、引理名称、操作命令、符号类型及定义模板等多维特征的精细结构,旨在为大语言模型提供结构化的数学推理训练与评估素材。通过设置原始数据与去除类型或定义信息的多种配置变体(如_nodefs与_notypes),研究者得以系统性探究符号化定义与类型信息对模型推理能力的影响。这一数据集的推出,不仅为形式化数学推理基准测试注入了新的活力,也为评估大语言模型在抽象代数领域的泛化能力提供了关键支撑,对推动可解释人工智能与神经符号学习融合具有深远意义。
当前挑战
数据集所解决的领域问题核心在于,当前大语言模型在处理严格形式化的数学推理,尤其是涉及高度抽象代数结构(如八元数)的推导任务时,往往因缺乏结构化符号约束而陷入逻辑谬误。构建过程中面临的首要挑战是如何将非平凡的数学知识(如交换距离定理)精准编码为LLM可理解的LEM格式,同时保持符号动态与类型系统的内在一致性。此外,数据规模极为有限(如rankings_swap_distance仅139条测试样本),如何在有限样本下评估模型性能并避免过拟合,成为实验设计中的关键难题。多配置变体(含定义、无定义、无类型)的引入则进一步增加了数据集的复杂性,要求模型不仅记忆模式,更需理解逻辑本质。
常用场景
经典使用场景
在形式化数学与人工智能的交叉领域,lemexp-commerical-llm-experiment数据集为评估大语言模型在定理证明中的引理生成能力提供了标准化测试平台。该数据集围绕八元数(octonions)和排名交换距离(rankings swap distance)两个数学理论领域,构建了包含引理对象、模板、符号、类型及定义的多维特征体系。研究者可借助其精心划分的多个配置变体,如去除定义或类型的消融实验版本,系统性地探究语言模型对数学形式化结构的理解深度。这一资源尤其适用于测试模型能否从给定的理论文件中准确推断出引理证明所需的关键中间结论,从而衡量其在自动推理任务中的表现水平。
实际应用
在实际应用中,该数据集可直接服务于交互式定理证明器的智能化升级,例如辅助Coq或Lean等系统的用户自动化生成引理中间步骤,从而提升形式化验证的编写效率。此外,基于此类数据训练的语言模型可被集成到数学教育平台中,为学习者生成循序渐进的证明提示,或自动验证学生在解题过程中引理应用的正确性。在算法验证领域,该资源还能支持自动补全复杂数学文献中缺失的证明环节,加速理论研究向工程实现的知识转化。
衍生相关工作
基于该数据集的特征设计模式,研究者衍生出若干重要工作方向。例如,针对数据集中引理对象与理论环境的依赖关系,催生了将图神经网络与序列模型结合的混合架构研究,以更精准地建模符号间的长程推理路径。另一些工作则深入分析了不同配置变体下模型性能的差异,从而提出了面向形式化证明的提示工程优化策略,包括动态选择定义或类型信息的输入方式。此外,该数据集还启发了构建更大规模的多领域引理生成基准,推动了从八元数等非交换代数到更为普遍的数学结构上的迁移学习研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作