openconjecture

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/davisrbr/openconjecture

下载链接

链接失效反馈

官方服务：

资源简介：

OpenConjecture 是一个动态更新的数学猜想数据集，包含从 arXiv 数学板块的最新论文中提取的猜想。数据集通过 [`conjectures-arxiv`](https://github.com/davisrbr/conjectures-arxiv) 管道处理，从 LaTeX 源码中提取猜想类文本块，并使用 GPT-5 Mini 对每个候选猜想进行标注，同时评估其趣味性和近期可行性。当前数据集包含 **1046** 个开放猜想。该快照包含来自 7560 篇 arXiv 数学板块论文的 1247 个候选猜想记录，其中大多数论文发表于 2026-01-29 至 2026-03-26 之间，另有 21 篇交叉列出的论文其原始发布日期较早。GPT-5 Mini 将 198 条记录标记为 `not_real_conjecture`，3 条标记为 `uncertain`。根据当前发布策略 (`hf-publication-v2`)，591 个猜想以文本形式发布，656 个因源许可限制而仅作为元数据记录包含。数据集包含论文元数据、猜想文本以及所有猜想的 LLM 标签。发布策略允许在非商业用途下包含 `CC BY-NC*` 内容，并提供了每条记录的发布决策、文本原因和政策版本等元数据。数据集文件包括 JSONL 和 CSV 格式的猜想记录、论文元数据以及发布清单。

创建时间：

2026-03-17

原始信息汇总

OpenConjecture数据集概述

数据集基本信息

数据集名称：OpenConjecture
数据集描述：一个从arXiv近期论文中提取的数学猜想动态数据集。
许可证：other
标签：mathematics, arxiv
数据规模：当前包含1046个开放猜想。

数据来源与构建

来源：arXiv数学版块近期发布的论文。
构建流程：通过conjectures-arxiv流水线处理，包括摄入论文、从LaTeX源码中提取猜想式文本块、使用GPT-5 Mini对每个候选进行标注，并对真实/开放猜想进行趣味性和近期可行性评分。
当前快照详情：
- 从7560篇论文中提取了1247个候选猜想记录。
- 大多数论文发布日期在2026-01-29至2026-03-26之间，另包含21篇较早发布的交叉列出论文。
- GPT-5 Mini将198条记录标注为not_real_conjecture，3条标注为uncertain。

数据内容与结构

核心内容：论文元数据和猜想文本。
标注信息：包含快照中每个猜想的LLM标签。
发布详情：
- 根据当前发布政策（hf-publication-v2），591个猜想以文本形式发布。
- 656个猜想因来源许可证限制，仅作为元数据记录包含。
文件列表：
- data/conjectures.jsonl：公共猜想记录（根据政策要求可能对文本进行编辑）。
- data/conjectures.csv：公共猜想表的CSV版本。
- data/papers.jsonl：论文元数据及每篇论文中被编辑与已发布猜想的计数。
- data/papers.csv：论文表的CSV版本。
- data/publication_manifest.json：发布决策流水线的聚合计数。

发布政策

性质：作为非商业数据集发布，因此包含CC BY-NC*材料。
当前保留规则：遵循arXiv非独占分发许可证（arxiv.org/licenses/nonexclusive-distrib/1.0/）。
元数据字段：当文本被保留时，记录仍包含论文标识符、URL和来源位置。相关政策元数据通过publication_decision、publication_text_reason和publication_policy_version字段提供。

相关资源

源代码与流水线：https://github.com/davisrbr/conjectures-arxiv
Hugging Face数据集仓库：davisrbr/openconjecture
GitHub仓库内容：包含完整流水线、脚本、图表和此版本的求解器工件。

搜集汇总

数据集介绍

构建方式

在数学研究领域，arXiv作为预印本平台汇聚了海量前沿成果，OpenConjecture数据集正是从中系统化提取数学猜想的结构化尝试。其构建流程始于对arXiv数学版块近期论文的持续抓取，通过解析LaTeX源代码识别出疑似猜想的文本块，随后利用GPT-5 Mini模型对候选内容进行自动化标注，区分出真实猜想、非真实猜想及不确定类别，并进一步对确认为开放猜想的条目进行趣味性与近期可行性评分，最终依据出版许可政策筛选出可公开的文本与元数据，形成动态更新的知识库。

使用方法

研究人员可将该数据集直接应用于数学知识发现、猜想自动化分析与学科趋势预测等多个方向。使用时可从提供的JSONL或CSV格式文件中加载数据，利用其丰富的元数据字段——如论文分类、猜想标签、评分及出版决策信息——进行筛选、统计或可视化分析。例如，可依据“趣味性”与“近期可行性”分数对猜想进行排序，以识别高潜力的研究目标；或结合论文类别字段，探究不同数学分支中猜想涌现的规律。数据集配套的完整处理流程与脚本也支持用户复现或定制扩展这一构建管道，以适应特定的研究需求。

背景与挑战

背景概述

OpenConjecture数据集于2026年由研究人员通过arXiv数学论文自动提取构建，旨在系统化收集与整理数学领域中的开放猜想。该数据集依托先进的大语言模型技术，从海量学术文献中识别并标注具有研究潜力的猜想命题，为数学研究提供了结构化的知识库。其核心研究问题聚焦于如何高效挖掘数学文献中的未解问题，并评估其研究价值与可解性，从而推动数学领域的知识发现与跨学科合作。该数据集的建立标志着数学信息学与人工智能交叉融合的新趋势，为自动化数学推理与猜想验证奠定了重要基础。

当前挑战

OpenConjecture数据集面临的挑战主要源于数学猜想本身的高度抽象性与复杂性。在领域问题层面，如何准确定义并分类数学猜想，区分其真实性、开放性与研究价值，需要克服自然语言处理在专业数学表述上的语义鸿沟。构建过程中，数据集依赖于自动化流水线从LaTeX源码提取候选猜想，并利用大语言模型进行标注，这引入了模型幻觉与标注一致性的风险。同时，数据来源涉及多样化的版权许可，需在学术开放性与法律合规性之间取得平衡，部分猜想文本因许可限制仅能提供元数据，影响了数据集的完整性与可用性。

常用场景

经典使用场景

在数学研究领域，OpenConjecture数据集为学者们提供了一个动态更新的猜想资源库，其经典使用场景在于支持数学猜想的自动化发现与分类研究。通过从arXiv数学板块的最新论文中提取猜想式文本，并利用大型语言模型进行标注与评分，该数据集能够助力研究人员系统性地探索数学前沿中的未解问题，为猜想验证、理论构建提供数据驱动的洞察基础。

解决学术问题

OpenConjecture数据集有效应对了数学研究中猜想信息分散、难以系统追踪的学术挑战。它通过结构化整合来自数千篇论文的猜想候选记录，并辅以趣味性与近期可行性评分，为数学逻辑、自动推理及形式化验证等领域提供了标准化基准。这不仅促进了猜想发现流程的自动化，还深化了人们对数学知识演进模式的理解，推动了计算数学与人工智能交叉学科的发展。

实际应用

在实际应用层面，OpenConjecture数据集可作为智能数学辅助工具的核心数据源，服务于教育、科研及知识管理等领域。例如，在数学教育中，教师可借助该数据集引入前沿猜想案例，激发学生探索兴趣；在科研工作中，学者能快速检索相关猜想，辅助文献综述或研究方向定位；同时，其开放的元数据架构也为构建数学知识图谱、开发自动化推理系统提供了实用基础。

数据集最近研究