five

NuminaMath-1.5-EFA-Subset

收藏
Hugging Face2025-04-16 更新2025-04-17 收录
下载链接:
https://huggingface.co/datasets/codezakh/NuminaMath-1.5-EFA-Subset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了从NuminaMath_CoT数据集中前5000个问题推断出的可执行公式抽象(EFAs)。这些EFAs是由EFAGen-Llama-3.1-Instruct-8B模型推断的,并且训练时使用的提示与模型卡片中的链接相关。数据集中的大多数前5000个问题包含多个EFA候选者。每个数据条目包括一个种子问题及其答案、问题来源、EFA的可执行Python代码以及执行EFA生成的合成问题变体。
创建时间:
2025-04-15
搜集汇总
数据集介绍
main_image_url
构建方式
NuminaMath-1.5-EFA-Subset数据集基于NuminaMath_CoT的前5,000道数学问题构建,通过EFAGen-Llama-3.1-Instruct-8B模型推断生成EFA(可执行形式算法)。该过程采用严格的代码生成技术,为每个种子问题生成多个EFA候选方案,并进一步衍生出合成问题变体。数据集采用Pydantic模型结构化存储,确保数据格式的规范性和可扩展性。
使用方法
使用该数据集时,需预先配置Python环境并安装SymPy、NumPy等依赖库。通过加载EFA代码可实例化算法生成器,进而批量产生数学问题变体。研究人员可通过分析seed_problem与efa_generated_variants的映射关系,探究算法生成问题的规律。数据集采用的Pydantic结构体设计,使得数据加载和类型检查更为便捷高效。
背景与挑战
背景概述
NuminaMath-1.5-EFA-Subset数据集是数学问题生成领域的重要资源,由AI-MO研究机构于2024年推出。该数据集基于NuminaMath_CoT数据集的5000个数学问题,通过EFAGen-Llama-3.1-Instruct-8B模型推断生成可执行函数抽象(EFA)。其核心研究目标是探索数学问题的自动化生成与变体构造,为数学教育和大语言模型推理能力评估提供支持。该数据集的创新性体现在将抽象数学问题转化为可执行代码,推动了数学问题生成从静态文本到动态程序的范式转变。
当前挑战
该数据集面临双重挑战。在领域问题层面,数学问题生成需要平衡变体问题的多样性与数学严谨性,确保生成的变体既富有创造性又符合数学逻辑。构建过程中,EFA代码的生成涉及复杂的符号计算和程序合成,要求模型具备精确的数学表达能力和编程逻辑。数据集中部分EFA代码存在依赖项冲突或执行错误,反映出程序合成在数学领域的特殊困难。此外,变体问题的质量评估缺乏统一标准,为后续研究带来验证难题。
常用场景
经典使用场景
在数学问题生成领域,NuminaMath-1.5-EFA-Subset数据集为研究者提供了丰富的实验素材。该数据集通过EFA(Executable Function Approximation)技术,从NuminaMath_CoT数据集中精选前5000道数学问题,并生成多组可执行的函数近似变体。这种结构化的数据组织方式,使得研究者能够深入探究数学问题生成的多样性与可控性,为自然语言处理与数学教育的交叉研究搭建了桥梁。
解决学术问题
该数据集有效解决了数学问题自动生成中的核心挑战——如何保持语义一致性的同时实现问题变体的多样化。通过提供可执行的Python代码(EFA_code)及其生成的变体问题(efa_generated_variants),研究者可以量化分析问题变体的语法复杂度与语义保真度。这种数据范式为数学教育中的自适应学习系统、认知诊断模型等研究提供了可验证的理论框架,推动了形式化方法在教育技术中的应用。
实际应用
在实际应用层面,该数据集支撑了智能辅导系统的开发。教育科技公司可利用EFA生成的变体问题,构建动态题库以满足个性化学习需求。通过解析efa_code中的参数化模板,系统能够按需生成难度可控、知识点覆盖全面的数学问题,显著提升在线教育平台的交互质量。这种技术路径已被证实能有效降低人工编写题目的时间成本,同时保证题目质量的教育测量学标准。
数据集最近研究
最新研究方向
在数学问题生成领域,NuminaMath-1.5-EFA-Subset数据集的最新研究方向聚焦于利用可执行函数抽象(EFA)技术自动生成多样化的数学问题变体。该数据集基于NuminaMath_CoT的前5000个问题,通过EFAGen-Llama-3.1-Instruct-8B模型推断出多个EFA候选,为每个种子问题生成丰富的变体。这一技术为数学教育中的个性化学习提供了新思路,能够根据学生需求动态调整问题难度和类型。当前研究热点包括探索EFA在跨学科数学问题生成中的应用,以及如何结合大语言模型进一步提升生成问题的质量和多样性。该数据集的发布为数学问题自动生成、自适应学习系统等研究方向提供了重要资源,推动了智能教育领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作