TypstBench

github2025-05-15 更新2025-05-16 收录

下载链接：

https://github.com/rkstgr/TypstBench

下载链接

链接失效反馈

官方服务：

资源简介：

TypstBench是一个包含Typst（一种现代排版语言）相关任务和问题的数据集，用于评估和提升大型语言模型在Typst生成方面的熟练程度。

TypstBench is a dataset encompassing tasks and questions related to Typst, a modern typesetting language, aimed at evaluating and enhancing the proficiency of large language models (LLMs) in Typst generation.

创建时间：

2025-05-11

原始信息汇总

TypstBench 数据集概述

数据集简介

目的：用于评估和提升大型语言模型(LLMs)在Typst排版语言生成方面的能力
内容：包含围绕Typst(现代排版语言)的任务和问题

初步研究结果(基于46个任务)

模型名称	准确率
Claude 3.7 Sonnet	43.48%
Gemini 2.5 Pro	41.30%
Gemini 2.5 Flash	32.61%
Claude 3.5 Haiku	30.43%
GPT-4.1	15.22%
GPT-4.1-Mini	4.35%

数据集操作命令

统计信息

sh python dataset.py stats

验证

功能：使用typst渲染所有任务解决方案，确保语法正确
注意：部分任务会被忽略(目录中包含.ignore-verify文件或任务定义中设置ignore-verify = true) sh python dataset.py verify

渲染

渲染特定任务： sh python dataset.py render generate/001
渲染所有任务(未被过滤的)： sh python dataset.py render --all

评估

使用LiteLLM评估外部模型
建议：创建包含LLM提供商API密钥的本地.envrc文件

示例命令

基本用法(OpenAI GPT-3.5)： sh python evaluate.py --model gpt-3.5-turbo --api-key your_openai_key
仅评估基础层级样本(Claude)： sh python evaluate.py --model anthropic/claude-3-opus-20240229 --api-key your_anthropic_key --tier basic
仅评估数学相关样本(最多5个)： sh python evaluate.py --model gpt-4 --features math --max-samples 5
降低并发数： sh python evaluate.py --model anthropic/claude-3-5-haiku-20241022 --concurrency 2

搜集汇总

数据集介绍

构建方式

TypstBench数据集作为评估大型语言模型在Typst排版语言领域能力的基准工具，其构建过程体现了严谨的科学方法论。研究团队精心设计了46项涵盖Typst语法特性的多样化任务，每项任务都经过Typst渲染引擎的语法验证，确保解决方案的准确性。通过设置.ignore-verify标记和任务定义中的ignore-verify参数，科学地排除了不适用语法验证的特殊任务类型，使数据集具有更强的专业性和可靠性。

使用方法

研究人员可通过命令行工具链高效地使用该数据集。dataset.py脚本提供统计信息获取、语法验证和PDF渲染三大核心功能，支持单个任务或批量处理模式。评估环节通过LiteLLM接口实现，兼容OpenAI、Anthropic等主流API，并支持并发控制、任务过滤等高级功能。用户只需配置简单的环境变量和命令行参数，即可快速开展针对特定模型在Typst领域的能力测评工作。

背景与挑战

背景概述

TypstBench数据集作为评估大型语言模型在Typst排版语言生成能力方面的基准工具，由相关研究团队于近期构建完成。Typst作为一种新兴的现代化排版语言，其简洁的语法结构和高效的编译性能正在逐步改变传统排版领域的技术生态。该数据集聚焦于解决语言模型在专业排版领域的能力评估问题，通过构建包含多样化任务的测试集，为研究者提供了量化模型性能的标准化平台。初步实验数据显示，当前主流语言模型在Typst相关任务上的准确率普遍低于50%，这一现象凸显了专业领域语言理解与生成仍存在显著的技术瓶颈。

当前挑战

TypstBench数据集面临的核心挑战主要体现在两个方面：在领域问题层面，Typst语言的语法特性和排版逻辑对语言模型的语义理解和结构生成能力提出了特殊要求，现有模型在处理复杂排版指令时往往难以保持上下文一致性；在构建技术层面，确保数据集中每个任务的解决方案既符合Typst语法规范又具备排版合理性，需要设计严格的验证机制。数据集的多样性覆盖与专业深度平衡也构成重要挑战，既要包含基础语法题目，又需纳入反映实际排版场景的综合性任务。验证环节中部分特殊任务类型的排除处理，进一步增加了质量控制的复杂度。

常用场景

经典使用场景

在排版语言领域，TypstBench数据集为评估大型语言模型在Typst生成任务中的表现提供了标准化测试环境。通过46项涵盖语法正确性、功能完整性和逻辑合理性的任务，研究人员能够系统性地比较不同模型在代码生成、数学公式排版和文档结构理解等核心能力上的差异。该数据集特别设计了多层级验证机制，包括静态语法检查和动态渲染验证，确保评估结果的可靠性和可复现性。

解决学术问题

TypstBench有效解决了排版语言模型评估中缺乏标准化基准的学术难题。通过量化Claude、Gemini和GPT等主流模型在Typst代码生成任务中的准确率（当前最佳为43.48%），该数据集揭示了现有模型在复杂排版指令理解、数学符号处理和文档结构推理方面的共性缺陷。这种细粒度性能分析为改进模型在专业领域语言理解提供了明确方向，填补了排版系统与AI交叉研究的方法论空白。

实际应用

该数据集的实际价值体现在智能文档生成系统的开发优化中。教育机构可利用其评估AI助教系统自动生成学术论文模板的能力，出版行业则能测试自动化排版工具的技术可行性。特别在需要精确数学公式排版的科技文档领域，基于TypstBench优化的模型可显著提升LaTeX替代方案的生成质量，降低专业排版的技术门槛。

数据集最近研究