principia-collection

Name: principia-collection
Creator: AI at Meta
Published: 2025-11-09 13:12:14
License: 暂无描述

Hugging Face2025-11-09 更新2025-11-10 收录

下载链接：

https://huggingface.co/datasets/facebook/principia-collection

下载链接

链接失效反馈

官方服务：

资源简介：

Principia Collection是一个大规模的数据集，旨在提高语言模型从STEM相关的问题陈述中推导出数学对象的能力。每个实例包含一个问题陈述、一个真实答案、一个答案类型和一个主题标签。该数据集包含了250K个实例，所有实例都需要推导数学对象。此外，还提供了一个300K实例的子集，包含相同的主题，但需要数值答案。

提供机构：

AI at Meta

创建时间：

2025-11-05

原始信息汇总

Principia Collection数据集概述

数据集基本信息

名称: Principia Collection
许可证: CC-BY-NC-SA-4.0
语言: 英语
标签: 推理、数学、困难
规模分类: 10万<n<100万

数据集构成

数据子集

数学对象子集: 248,743个实例，数据大小442,009,655字节
数值子集: 305,656个实例，数据大小368,733,360字节

总体统计

下载大小: 352,615,622字节
数据集总大小: 810,743,015字节

数据特征

特征字段

topic（主题）
problem_statement（问题描述）
answer（答案）
answer_type（答案类型）

数据内容详情

数学对象子集

答案类型分布

方程: 42,714
不等式: 41,670
区间: 42,728
集合: 46,869
矩阵: 39,386
分段函数: 35,381

答案长度统计（以token计）

平均长度: 135.3
中位数长度: 73
25百分位数: 28
75百分位数: 161

数值子集

答案类型分布

整数（无单位）: 54,077
整数（有单位）: 51,612
小数（无单位）: 42,986
小数（有单位）: 43,994
分数（无单位）: 58,039
分数（有单位）: 54,953

数据来源

主题分类基于《物理主题词表（PhySH）》和《数学主题分类（MSC 2020）》
使用GPT-OSS-120B作为提议者通过合成数据生成流程创建

应用价值

增强语言模型从STEM相关问题描述中推导数学对象的能力
在SuperGPQA、GPQA-Diamond和AIME等推理基准测试中表现出持续性能提升

搜集汇总

数据集介绍

构建方式

在数学与物理学科交叉领域，Principia Collection数据集通过合成数据生成流程构建而成。该流程依托GPT-OSS-120B模型作为问题生成器，系统性地创建了包含问题陈述、真实答案、答案类型及主题标签的实例。主题分类严格遵循《数学主题分类（MSC 2020）》和《物理学科标题（PhySH）》两大权威分类体系，确保了学科覆盖的广度与深度。

特点

该数据集包含数学对象与数值计算两大子集，分别具有24.8万与30.6万条实例。数学对象子集涵盖方程、不等式、区间等六类结构化答案，数值子集则区分带单位与无单位的整数、小数及分数类型。答案长度呈现显著差异，数学对象答案中位数达73个标记，体现了复杂符号推理的特性。所有数据均采用标准化特征结构，为模型训练提供高质量的多维度监督信号。

使用方法

研究者可通过HuggingFace数据集库直接加载特定子集，使用load_dataset函数并指定'mathematical_object'或'numerical'参数即可获取对应数据。该数据集适用于增强语言模型的数学推理能力，可整合至预训练或微调阶段。实践表明，联合训练数值子集能显著提升模型在SuperGPQA、GPQA-Diamond等权威数学推理基准上的表现。

背景与挑战

背景概述

Principia Collection作为数学推理领域的重要数据集，由Facebook研究团队于2024年构建发布，旨在通过结构化问题求解任务增强语言模型的数学推理能力。该数据集基于物理学主题标引（PhySH）和数学学科分类（MSC 2020）构建知识框架，采用GPT-OSS-120B模型生成25万条数学对象推导实例与30万条数值计算实例，其多模态问题表述与精确标注体系为复杂数学关系的形式化表达建立了新范式。该资源显著推进了STEM教育智能化与自动推理系统的研究进程，在SuperGPQA、GPQA-Diamond等权威基准测试中展现出持续性能提升。

当前挑战

该数据集致力于解决数学语言理解与符号推理的核心难题，要求模型从自然语言描述中精确解析数学实体间的逻辑关联，并生成符合数学规范的结构化输出。构建过程中面临三大挑战：首先需确保生成问题的数学严谨性与领域覆盖度，通过双重学科分类体系实现知识边界控制；其次在答案标注环节需平衡表达简洁性与数学完整性，特别是矩阵方程与分段函数等复杂结构的标准化表示；最后在数据质量控制方面，需克服生成模型固有的逻辑一致性难题，通过多轮验证机制保证推导链条的可靠性。

常用场景

经典使用场景

在数学与自然科学领域，Principia Collection作为大规模合成数据集，其经典应用聚焦于增强语言模型从STEM问题陈述中推导数学对象的能力。该数据集通过结构化的问题-答案对，涵盖方程、不等式、矩阵等六类数学对象输出，为模型提供系统化的符号推理训练框架，有效模拟了学术场景中从抽象问题到形式化表达的转化过程。

实际应用

在实际应用层面，该数据集已成为STEM教育智能辅导系统的核心训练资源。其数值子集通过带单位与分数形式的答案设计，可直接应用于工程计算验证、物理仿真参数推导等场景。教育科技企业可基于此开发自适应学习系统，而研究机构则借助其规模优势构建专业领域的问答引擎。

衍生相关工作

基于该数据集衍生的经典工作主要体现在三大方向：其合成流水线被扩展至化学、生物等新兴学科，催生了跨领域推理数据集；其评估框架启发了SuperGPQA等基准的改进版本；部分研究团队通过融合数学对象与数值子集，构建了多模态推理模型，在GPQA-Diamond等挑战赛中取得突破性进展。

以上内容由遇见数据集搜集并总结生成