Hinted Algorithmic Number Theory (HANT)
收藏arXiv2025-04-28 更新2025-04-30 收录
下载链接:
https://doi.org/10.5281/zenodo.15293187
下载链接
链接失效反馈官方服务:
资源简介:
HANT数据集由30个算术数论算法任务和相应的30个计算问题组成,每个问题都附有9个不同的提示策略。数据集包括60个文本文档,每个文档包括问题陈述、9个教学提示和正确的算法或解决方案。数据集旨在评估大型语言模型在算术数论领域的算法和计算任务上的性能。数据集已被证明能够以至少95%的准确率解决每个问题,这表明在算术数论这一高度专业化的数学领域,LLM具有强大的性能。
The HANT dataset comprises 30 arithmetic number theory algorithmic tasks and 30 corresponding computational problems, with each problem accompanied by 9 distinct prompting strategies. The dataset contains 60 text documents, each encompassing the problem statement, 9 instructional prompts, and the correct algorithm or solution. This dataset is intended to evaluate the performance of large language models (LLMs) on algorithmic and computational tasks within the field of arithmetic number theory. It has been verified that each problem in this dataset can be solved with an accuracy of at least 95%, which demonstrates the robust performance of LLMs in this highly specialized mathematical domain of arithmetic number theory.
提供机构:
Unknown
创建时间:
2025-04-28
搜集汇总
数据集介绍

构建方式
Hinted Algorithmic Number Theory (HANT) 数据集由三十个数论经典算法任务及其对应的三十个计算问题构成,数据来源于经典数论教材和Math StackExchange。每个问题或任务被分为十一个部分,包括问题陈述、九种提示策略和一个真实算法或解决方案。通过组合问题陈述与每种提示策略,生成了540个提示,用于评估大型语言模型在算法数论任务中的表现。
特点
HANT数据集的特点在于其高度专业化的数论任务和多样化的提示策略。数据集涵盖了九大主题类别,包括GCD与线性同余、丢番图方程与连分数、整数表示等。每个问题都配备了九种不同的提示策略,如Few-shot Hinting、Chain-of-Thought等,确保模型在不同提示下的表现能够被全面评估。数据集的构建还特别强调了提示的非泄露性,确保提示不会直接透露答案。
使用方法
HANT数据集的使用方法包括生成和评估大型语言模型的输出。每个问题与提示的组合被输入到模型中,生成的解决方案通过ToRA-7B-v1.0模型进行评估,使用包括准确性、相似性、清晰度等在内的十四项指标。数据集特别适用于研究提示策略对模型性能的影响,以及模型在高度专业化数学领域中的表现。
背景与挑战
背景概述
Hinted Algorithmic Number Theory (HANT) 数据集由Ali Saraeb于2025年创建,旨在评估先进大语言模型在算法数论领域解决计算问题和生成算法的能力。该数据集包含三十个经典数论算法问题和三十个计算问题,来源于经典教材和数学社区。HANT数据集通过引入九种提示策略,探索了提示设计对模型性能的影响,为数学领域的AI应用提供了新的评估基准。
当前挑战
HANT数据集面临的挑战主要包括:1) 在高度专业化的数学领域中,如何设计有效的提示策略以引导模型生成准确解;2) 构建过程中需确保提示既具引导性又不泄露答案,这对数学正确性和教学性提出了双重挑战;3) 将复杂的数论问题转化为适合语言模型处理的格式时,需平衡问题的完整性和模型的计算限制。
常用场景
经典使用场景
Hinted Algorithmic Number Theory (HANT) 数据集在数论算法研究中具有广泛的应用。该数据集通过提供一系列数论问题和计算问题,结合九种不同的提示策略,为研究人员评估大型语言模型在数论任务中的表现提供了标准化的基准。特别是在算法生成和计算问题求解方面,HANT数据集能够帮助研究者分析模型在不同提示策略下的性能差异,从而优化模型在数学推理任务中的表现。
解决学术问题
HANT数据集解决了数论研究中多个关键问题。首先,它填补了大型语言模型在高度专业化数学领域性能评估的空白,特别是在算法数论这一细分领域。其次,通过引入提示策略的研究,该数据集为理解如何有效引导模型解决复杂数学问题提供了实验基础。此外,数据集的设计还解决了数学教育中提示引导学习这一长期存在的需求,为开发更有效的数学辅助工具奠定了基础。
衍生相关工作
基于HANT数据集,已衍生出多项重要研究工作。在算法生成方面,研究者开发了针对数论问题的专用提示策略优化方法。在数学教育领域,该数据集启发了多项关于提示引导学习的研究。此外,数据集中的问题分类和方法论还被扩展到其他数学领域,如代数几何和组合数学。在机器学习与数学交叉领域,HANT数据集为开发专门针对数学推理任务的语言模型微调方法提供了重要基准。
以上内容由遇见数据集搜集并总结生成



