AlgoTune

Hugging Face2026-01-04 更新2026-01-05 收录

下载链接：

https://huggingface.co/datasets/oripress/AlgoTune

下载链接

链接失效反馈

官方服务：

资源简介：

AlgoTune是一个基准测试，包含154个广泛使用的数学、物理和计算机科学函数。对于每个函数，目标是编写与原始函数输出相同但更快的代码。除了基准测试外，还提供了一个名为AlgoTuner的代理，使语言模型能够轻松优化代码。

创建时间：

2025-12-31

原始信息汇总

AlgoTune 数据集概述

数据集基本信息

数据集名称: AlgoTune
许可证: MIT
相关链接:
- 官方网站: https://algotune.io/
- 论文: https://arxiv.org/abs/2507.15887
- 代码仓库: https://github.com/oripress/AlgoTune/

数据集简介

AlgoTune 是一个用于评估语言模型生成新算法能力的基准测试。它包含 154 个广泛使用的数学、物理和计算机科学函数。对于每个函数，其目标是编写代码，使其输出与原始函数相同，同时运行速度更快。

核心内容与目标

除了基准测试外，该项目还提供了一个名为 AlgoTuner 的智能体，使语言模型能够轻松地优化代码。其主要目标是探究语言模型在构思新算法方面的能力。

运行与部署

AlgoTune 现可轻松在 AWS 上运行，仅需 OpenRouter API 密钥和 AWS 凭证。关于在 SLURM 或单台机器上运行 AlgoTuner 的更多信息，请参考代码仓库。

引用信息

如需引用此工作，请使用以下 BibTeX 条目： bibtex @article{press2025algotune, title={AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?}, author={Press, Ori and Amos, Brandon and Zhao, Haoyu and Wu, Yikai and Ainsworth, Samuel K. and Krupke, Dominik and Kidger, Patrick and Sajed, Touqir and Stellato, Bartolomeo and Park, Jisun and Bosch, Nathanael and Meril, Eli and Steppi, Albert and Zharmagambetov, Arman and Zhang, Fangzhao and Perez-Pineiro, David and Mercurio, Alberto and Zhan, Ni and Abramovich, Talor and Lieret, Kilian and Zhang, Hanlin and Huang, Shirley and Bethge, Matthias and Press, Ofir}, journal={arXiv preprint arXiv:2507.15887}, year={2025}, doi={10.48550/arXiv.2507.15887}, url={https://arxiv.org/abs/2507.15887}}

搜集汇总

数据集介绍

构建方式

在算法优化与代码生成领域，AlgoTune数据集的构建体现了对语言模型算法创新能力的系统性评估。该数据集精心选取了154个广泛应用的数学、物理及计算机科学函数，每个函数均以原始实现为基准，要求生成功能等效但运行速度更快的代码版本。通过这一设计，数据集不仅覆盖了多样化的计算场景，还为衡量模型在保持正确性前提下的性能优化潜力提供了结构化框架。

使用方法

使用AlgoTune时，研究者可通过其提供的基准接口直接评估语言模型在算法优化任务上的表现。用户需针对每个给定函数生成加速代码，并通过集成工具链验证其正确性与性能增益。数据集支持在AWS云平台、SLURM集群或单机环境中部署，结合OpenRouter等API可灵活调用不同模型进行实验，从而系统分析模型在算法设计中的潜力与局限。

背景与挑战

背景概述

在人工智能与计算科学交叉领域，评估大型语言模型的算法创新能力已成为前沿研究课题。AlgoTune数据集于2025年由Ori Press等研究人员构建，其核心研究问题聚焦于探索语言模型是否能够生成在功能等价前提下，比现有实现更高效的计算程序。该数据集涵盖了数学、物理和计算机科学领域的154个经典函数，旨在为衡量模型在算法优化与代码生成方面的性能提供标准化基准。这一工作推动了编程自动化与智能代码优化方向的发展，为后续研究奠定了实证基础。

当前挑战

AlgoTune数据集所针对的领域挑战在于，如何系统评估语言模型在保持功能正确性的同时提升算法执行效率的能力，这涉及到程序语义等价性验证与性能度量的双重复杂性。在构建过程中，研究人员需从广泛学科领域中筛选具有代表性的函数，并确保每个基准任务具备明确的正确性标准与可量化的速度优化目标。同时，创建能够支持模型迭代优化代码的自动化评估框架，也带来了工程实现与计算资源协调方面的显著挑战。

常用场景

经典使用场景

在算法优化与代码生成领域，AlgoTune数据集提供了一个独特的基准测试平台，专注于评估语言模型在算法创新与性能提升方面的能力。该数据集汇集了154个广泛应用的数学、物理和计算机科学函数，核心任务要求模型生成与原始函数输出一致但运行速度更快的代码。这一场景典型地应用于自动化代码优化研究，通过对比不同模型生成的算法在效率上的差异，为衡量模型的实际编程与逻辑推理水平提供了标准化环境。

解决学术问题

AlgoTune数据集旨在解决语言模型在算法设计与性能优化方面的评估难题。传统基准多关注代码功能正确性，而该数据集引入了时间效率作为关键指标，从而填补了模型在生成高效算法能力评估上的空白。它帮助研究者系统探究模型是否能够理解复杂函数的内在逻辑并实现加速，推动了代码生成领域从功能性向性能导向的转变，为算法自动优化提供了可量化的研究基础。

实际应用

在实际应用中，AlgoTune数据集及其配套的AlgoTuner代理工具能够直接集成到软件开发与优化流程中。例如，在科学计算或工程模拟领域，开发者可利用该工具自动生成高性能的数值计算代码，替代手动调优，显著提升开发效率。同时，它也为编译器优化、自动化代码重构等工业场景提供了测试基准，助力实现更智能、高效的编程辅助系统。

数据集最近研究