EsoLang-Bench

github2026-03-13 更新2026-03-19 收录

下载链接：

https://github.com/Lossfunk/EsolangBench

下载链接

链接失效反馈

官方服务：

资源简介：

EsoLang-Bench是一个测试前沿大型语言模型在深奥编程语言中代码生成能力的基准测试。这些语言包括Brainfuck、Befunge-98、Whitespace、Unlambda和Shakespeare。这些语言的公共仓库数量比Python少1000倍至100000倍，揭示了模型是否能够真正推理新的计算范式，还是仅仅从记忆的代码中进行模式匹配。

EsoLang-Bench is a benchmark designed to evaluate the code generation capabilities of state-of-the-art large language models (LLMs) on esoteric programming languages. These languages include Brainfuck, Befunge-98, Whitespace, Unlambda, and Shakespeare. The number of public repositories for these languages is 1,000 to 100,000 times fewer than that of Python, which reveals whether models can truly reason about novel computational paradigms, or merely perform pattern matching based on memorized code.

创建时间：

2026-02-15

原始信息汇总

EsoLang-Bench 数据集概述

数据集基本信息

数据集名称：EsoLang-Bench
主要目的：通过深奥编程语言（Esoteric Programming Languages）评估大型语言模型的真实推理能力。
核心发现：最佳前沿模型（GPT-5.2）在EsoLang-Bench上的准确率为3.8%，而在等效Python任务上约为90%，揭示了模型在分布外代码推理方面的根本性局限。
论文地址：https://arxiv.org/abs/2603.09678
数据集地址：https://huggingface.co/datasets/Lossfunk/Esolang-Bench
项目网站：https://esolang-bench.vercel.app
代码许可证：MIT
数据集许可证：CC BY 4.0

数据集内容与结构

问题数量：80个问题。
难度等级：分为4个等级（每个等级20个问题）：Easy（简单）、Medium（中等）、Hard（困难）、Extra-Hard（极难）。
数据格式：每个数据行包含 id、difficulty、title、description、test_cases（包含6个 {input, output} 字典的列表）。
支持语言：包含5种深奥编程语言：
- Brainfuck（磁带机范式，GitHub仓库约5,000个）
- Befunge-98（2D网格范式，GitHub仓库约2,000个）
- Whitespace（隐形语法范式，GitHub仓库约200个）
- Unlambda（组合子范式，GitHub仓库约100个）
- Shakespeare（戏剧范式，GitHub仓库约150个）

评估体系

评估范式：包含5种提示范式和一种基线方法。
- zero_shot：单次LLM调用，提供语言文档的直接代码生成。
- few_shot：单次LLM调用，零样本提示外加3个上下文学习示例。
- self_scaffolding：单次LLM调用，提供直接解释器反馈，模型自我诊断（最佳非智能体方法）。
- textual_self_scaffolding：2次LLM调用，编码员+评论员配对；评论员提供自然语言调试指导。
- react：3次LLM调用，规划员+编码员+评论员管道（ReAct风格）。
迭代尝试：所有迭代范式（self_scaffolding、textual_self_scaffolding、react）每个问题最多运行5次尝试（可通过环境变量配置）。

主要结果摘要

模型	最佳策略	总体准确率
GPT-5.2	Self-Scaffolding	3.8%
O4-mini-high	Self-Scaffolding	3.2%
Gemini 3 Pro	Self-Scaffolding	2.8%
Qwen3-235B	Self-Scaffolding	1.0%
Kimi K2 Thinking	Self-Scaffolding	0.8%
Codex (Agentic)	--	13.8%
Claude Code	--	12.5%

使用方式

加载数据集： python from datasets import load_dataset ds = load_dataset("Lossfunk/Esolang-Bench") # 所有80个问题

可按难度加载子集："easy"、"medium"、"hard"、"extra_hard"。
评估运行：可通过CLI工具指定模型、语言、范式和难度进行评测。
解释器：提供CLI和Python API，用于运行和测试深奥编程语言代码。

搜集汇总

数据集介绍

构建方式

在编程语言研究领域，EsoLang-Bench 数据集的构建聚焦于评估大语言模型在非常规编程范式下的真实推理能力。该数据集精心设计了80个编程问题，覆盖Brainfuck、Befunge-98、Whitespace、Unlambda和Shakespeare五种冷门编程语言，这些问题依据复杂度被划分为四个难度层级。每个问题均包含清晰的描述和六组测试用例，确保了评估任务的多样性和严谨性。数据集的构建过程注重语言选择的代表性和问题设计的系统性，旨在有效检验模型面对稀缺训练数据时的泛化性能。

特点

EsoLang-Bench 数据集的核心特点在于其针对冷门编程语言的独特评估视角。所选语言在公开代码库中的数量远低于主流语言，这迫使模型必须依赖深层推理而非简单的模式匹配来生成代码。数据集提供了从零样本到多步推理的多种评估范式，包括自我脚手架和反应式代理等先进方法，能够全面衡量模型在不同交互深度下的表现。此外，数据集的四个难度层级覆盖了从基础输入输出到复杂算法的广泛任务，为模型能力提供了细致的评估尺度。

使用方法

使用EsoLang-Bench 数据集进行评估时，研究人员可通过Hugging Face平台便捷加载完整数据集或按难度分级获取子集。评估框架支持通过命令行工具或Python API调用，用户需配置相应的API密钥并选择目标模型、编程语言及评估范式。数据集允许自定义环境变量以控制最大尝试次数和问题数量，适应不同规模的研究需求。评估结果以结构化格式输出，便于后续进行准确性分析和模型性能比较，为探索大语言模型的推理边界提供了标准化工具。

背景与挑战

背景概述

在大型语言模型（LLMs）代码生成能力评估领域，传统基准多聚焦于主流编程语言，难以区分模型是依赖记忆模式匹配还是具备真正的推理能力。EsoLang-Bench 由研究人员 Aman Sharma 和 Paras Chopra 于2026年提出，旨在通过五种冷门编程语言（Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare）构建评估基准。这些语言在公开代码库中的数量较 Python 稀少数个数量级，核心研究问题在于检验模型面对新颖计算范式时的泛化与推理能力，而非对已知代码片段的复现。该数据集通过80个问题及四个难度层级，揭示了前沿模型在分布外代码理解上的显著差距，为评估模型的核心推理机制提供了关键工具。

当前挑战

EsoLang-Bench 所解决的领域挑战在于准确评估大型语言模型在代码生成中的真实推理能力，而非表面上的模式匹配。具体而言，模型需在缺乏充足训练数据的情况下，理解并生成基于完全异质编程范式的代码，这要求超越传统的统计学习，实现抽象概念迁移。在构建过程中，挑战主要体现在数据收集与问题设计上：由于目标语言社区规模极小，可供参考的公开代码示例极其有限，需人工精心设计覆盖不同难度与算法概念的测试用例；同时，为确保评估的严谨性，需为每种语言实现可靠的解释器，并构建能够公平反映模型多次尝试与自我修正能力的多层次评估体系。

常用场景

经典使用场景

在大型语言模型评估领域，EsoLang-Bench数据集被广泛用于检验模型在非主流编程语言环境下的代码生成与推理能力。该数据集通过引入Brainfuck、Befunge-98等五种冷门编程语言，构建了包含80个问题、四个难度层级的测试集，旨在评估模型面对低数据分布场景时的泛化性能。研究者通常利用该数据集，在零样本、少样本及自脚手架等多种提示机制下，系统性地分析模型对新颖计算范式的理解深度，从而揭示其是否真正具备逻辑推理能力，而非依赖训练数据的模式匹配。

衍生相关工作

围绕EsoLang-Bench数据集，学术界已衍生出多项探索模型推理机制的重要研究。部分工作聚焦于改进自脚手架与反应式代理等提示策略，以提升模型在冷门语言环境下的代码调试与迭代能力。另有研究尝试将数据集框架扩展至更多冷门编程语言或混合范式任务，进一步检验模型的元编程与跨范式迁移性能。这些衍生工作共同深化了对大语言模型泛化边界与推理本质的理解，为构建更稳健、更具创造性的代码生成系统奠定了理论基础。

数据集最近研究