lemexp-predictions

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/yalhessi/lemexp-predictions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于词形还原任务的中文数据集，包含不同的配置，如'beam-search'和'greedy'。每个配置都有自己的特征和数据分割，数据集大小因配置而异。

创建时间：

2025-05-29

原始信息汇总

数据集概述

基本信息

数据集名称: lemexp-predictions
数据集地址: https://huggingface.co/datasets/yalhessi/lemexp-predictions

数据集配置

数据集包含多个配置，主要分为以下几类：

lemma_object_small
- 包含beam-search和greedy两种预测方式
- 特征包括theory_file, lemma_name, lemma_command, lemma_object, template, symbols, types, defs, output_key, input, output, predictions
- 测试集示例数量：4740
- 文件大小：14.3MB (greedy), 20.9MB (beam-search)
lemma_object_afp
- 仅包含greedy预测方式
- 特征同上
- 测试集示例数量：16362
- 文件大小：47.3MB
lemma_object_octonions
- 包含beam-search和greedy两种预测方式
- 特征同上
- 测试集示例数量：350
- 文件大小：591KB (greedy), 1.36MB (beam-search)
nodefs变体
- 包括lemma_object_small_nodefs, lemma_object_afp_nodefs, lemma_object_octonions_nodefs
- 特征同上
- 测试集示例数量与原始配置相同
notypes变体
- 包括lemma_object_small_notypes, lemma_object_afp_notypes, lemma_object_octonions_notypes
- 特征同上
- 测试集示例数量与原始配置相同
template相关配置
- 包括template_afp, template_octonions, template_small及其nodefs和notypes变体
- 特征同上
- 测试集示例数量与对应lemma_object配置相同

特征说明

所有配置共享相同的特征结构：

theory_file: 字符串类型
lemma_name: 字符串类型
lemma_command: 字符串类型
lemma_object: 字符串类型
template: 字符串类型
symbols: 字符串序列
types: 字符串序列
defs: 字符串序列
output_key: 字符串类型
input: 字符串类型
output: 字符串类型
predictions: 字符串序列

数据统计

最大测试集：16362个示例（afp相关配置）
最小测试集：350个示例（octonions相关配置）
文件大小范围：478KB - 47.3MB

搜集汇总

数据集介绍

构建方式

lemexp-predictions数据集基于形式化数学证明场景构建，采用DeepSeek-Coder 1.3B模型对Isabelle理论文件进行自动化预测生成。通过多配置实验设计，数据集覆盖lemma_object和template两种任务类型，并细分为包含/排除类型定义(defs)与类型标注(types)的变体，每个配置均采用贪婪解码(greedy)和束搜索(beam-search)两种策略生成预测结果。原始数据源自AFP（Archive of Formal Proofs）和八元数理论等数学形式化项目，通过结构化解析提取引理名称、命令、对象及符号等元数据特征。

特点

该数据集的核心价值在于其多维度实验对比特性，包含16,362个AFP引理和350个八元数理论引理的预测结果。特征工程方面完整保留了理论文件的符号表、类型系统和定义集合，输出层同时包含标准答案与模型预测序列。技术亮点体现在不同解码策略的并行实验设计，以及通过消融实验（移除类型定义或类型标注）构建的对照数据集，为研究神经符号系统的泛化能力提供量化依据。数据规模上，最大单配置达47MB测试数据，最小配置仅478KB，形成理想的基准测试梯度。

使用方法

使用该数据集时需关注配置名的语义编码，如'lemma_object_afp/greedy'表示AFP引理对象预测的贪婪解码结果。研究人员可通过对比不同config_name下的预测准确率，分析类型系统对神经证明器性能的影响。典型工作流包括：加载特定配置的测试分割，提取input-output-predictions三元组进行自动化评估；或结合theory_file字段溯源原始Isabelle理论，进行人工错误模式分析。数据集兼容HuggingFace数据集库，支持内存映射读取大规模文件，各配置独立的下载尺寸标注便于分布式实验部署。

背景与挑战

背景概述

lemexp-predictions数据集由yalhessi团队构建，专注于形式化数学中的引理预测任务。该数据集基于深度学习模型deepseek-coder-1.3b-base，通过多任务配置（如lemma_object和template的变体）探索数学理论文件中的符号、类型和定义等结构化信息的自动生成。其核心研究问题在于如何利用机器学习技术提升形式化数学证明的自动化水平，为定理证明辅助系统提供数据支持。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题层面，数学引理的复杂逻辑结构和高度抽象性导致预测模型需要处理长程依赖和严格的类型约束；构建过程层面，不同理论文件（如AFP和Octonions）的异构性要求数据标注保持语义一致性，而beam-search与greedy解码策略的对比实验进一步增加了数据版本管理的复杂度。

常用场景

经典使用场景

在形式化数学与自动定理证明领域，lemexp-predictions数据集通过提供丰富的引理对象、符号定义和类型系统，为机器学习模型构建数学证明预测任务提供了标准化测试平台。其多配置版本支持从基础引理生成到复杂八元数理论验证等不同难度的实验场景，特别是在交互式定理证明器Isabelle/HOL的环境下，该数据集常被用于评估神经模型对数学表达式生成的准确性和逻辑一致性。

解决学术问题

该数据集有效解决了形式化数学中机器学习方法面临的三大核心挑战：数学符号的精确语义理解、结构化证明步骤的生成，以及跨理论文件的泛化能力。通过提供16,362个测试样例的丰富标注，研究人员能够量化分析模型在缺失类型定义或符号声明时的鲁棒性，这对推动自动推理系统从语法模仿迈向真正理解具有里程碑意义。

衍生相关工作

基于该数据集衍生的经典工作包括DeepSeek团队提出的混合贪婪-束搜索解码策略，以及后续发展的类型感知注意力机制。多项研究利用其分层标注体系，开创了数学知识图谱嵌入的新范式。最近的Neural Theorem Prover架构通过该数据集验证了符号逻辑与神经生成的融合潜力，相关成果发表在ICLR和CADE等顶级会议。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集