TeXpert

收藏

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://github.com/knowledge-verse-ai/TeXpert

下载链接

链接失效反馈

官方服务：

资源简介：

TeXpert是一个用于评估LLMs生成LaTeX代码能力的多级别基准数据集。它包含440个高质量样本，按难度分为简单、平均和困难三个类别。数据集涵盖了科学文档的多个组件，并针对不同难度级别的任务提供了自然语言提示。TeXpert旨在分析LLMs在生成准确LaTeX代码方面的表现，并识别常见的错误类型。

TeXpert is a multi-level benchmark dataset dedicated to evaluating the capability of Large Language Models (LLMs) in generating LaTeX code. It contains 440 high-quality samples, which are divided into three difficulty tiers: Easy, Medium, and Hard. The dataset covers various components of scientific documents, and provides natural language prompts for tasks at different difficulty levels. TeXpert aims to analyze the performance of LLMs when generating accurate LaTeX code, and identify common error types in their outputs.

提供机构：

Knowledgeverse AI

创建时间：

2025-06-20

原始信息汇总

TeXpert 数据集概述

摘要

LaTeX因其在排版方面的精确性和灵活性，成为科学文档准备的金标准。
大型语言模型（LLMs）为研究人员提供了通过自然语言指令使用LaTeX生成出版就绪材料的机会，但当前基准完全缺乏对此能力的评估。
TeXpert是一个基准数据集，包含用于生成LaTeX代码的自然语言提示，专注于科学文档的多个难度级别的组件。
评估发现：
- 在标准基准测试中表现优异的LLMs在LaTeX生成方面表现不佳，随着任务复杂度的增加，准确性显著下降。
- 开源模型如DeepSeek v3和DeepSeek Coder在LaTeX任务中与闭源模型表现相当。
- 格式和包错误异常普遍，表明大多数LLMs的训练数据集中缺乏多样化的LaTeX示例。

安装

克隆存储库。
可选：创建Python虚拟环境。
运行：

pip install -r requirements.txt
创建一个.env文件，包含所需的LLM API密钥。

使用

在main_test.py中设置测试参数：

model = <模型名称> difficulty_class = <Simple/Average/Hard> dataset_path = <数据集路径>
运行main_eval.py，结果将以Excel文件形式存储在results文件夹中，文件名为{model}_{difficulty_class}_results.xlsx。

贡献

欢迎任何对TeXpert的额外请求和/或贡献。
问题跟踪器用于记录待处理的功能和错误列表。
请联系作者以进行贡献。

搜集汇总

数据集介绍

main_image_url

构建方式

TeXpert数据集的构建过程体现了科学文档处理领域对LaTeX代码生成能力的系统化评估需求。研究团队通过两个关键步骤构建这一基准：首先从Overleaf文档模板等来源系统收集319个原子LaTeX命令，按功能分为文本格式化、数学符号等5类；随后采用人工校验与LLM辅助相结合的方式，依据指令长度、命令数量等维度将440个样本划分为简单、中等、困难三个难度等级，确保每个样本都经过严格的难度分类和质量验证。

使用方法

使用TeXpert评估LLMs时，研究者需通过标准化的提示模板输入自然语言指令，采用温度参数为0的确定性生成模式。评估环节创新性地采用GPT-4o和DeepSeek v3双重裁判机制，通过预定义的错误分类体系（含语法错误、包依赖错误等5类）进行量化分析。对于困难级任务，建议辅以人工验证的参考代码进行对比评估。该数据集特别适合用于检验模型处理科学文档复杂排版要求的能力，以及分析训练数据中LaTeX示例的覆盖充分性。

背景与挑战

背景概述

TeXpert数据集由Knowledgeverse AI的研究团队于2025年6月提出，旨在评估大型语言模型（LLMs）从自然语言指令生成LaTeX代码的能力。LaTeX作为科学文档排版的金标准，其精确性和灵活性使其在学术界广泛应用。然而，现有的基准测试缺乏对LLMs生成LaTeX代码能力的系统评估。TeXpert填补了这一空白，通过提供多难度级别的自然语言提示，专注于科学文档的各个组件，如表格、图表和参考文献等。该数据集的推出为研究社区提供了一个重要工具，帮助分析LLMs在生成复杂结构化文档时的表现，并揭示了训练数据中LaTeX示例的不足。

当前挑战

TeXpert数据集面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，LaTeX代码生成需要模型具备对科学文档结构的深刻理解，以及处理复杂排版指令的能力，而现有LLMs在生成准确LaTeX代码时普遍存在逻辑错误和格式问题。构建过程中，研究团队需要从大量科学文档中提取原子LaTeX命令，并分类为不同难度级别，确保数据集的多样性和代表性。此外，评估LLMs生成的代码时，如何准确定义和量化错误类型（如语法错误、逻辑错误和包错误）也是一项复杂任务。这些挑战凸显了LaTeX代码生成任务的复杂性，以及当前LLMs在处理结构化文档生成时的局限性。

常用场景

经典使用场景

TeXpert数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）生成LaTeX代码的能力。通过提供多难度级别的自然语言提示，该数据集能够全面测试模型在生成科学文档组件（如表格、公式、参考文献等）时的准确性和鲁棒性。这一场景特别适用于研究LLMs在复杂结构化文本生成任务中的表现，为模型优化提供了具体的方向。

解决学术问题

TeXpert解决了当前研究中缺乏针对LaTeX代码生成的系统性评估问题。通过构建多难度层级的任务，该数据集揭示了LLMs在生成复杂科学文档时的常见错误类型，如格式错误、包依赖问题等。这不仅填补了学术空白，还为改进模型训练数据（如增加LaTeX示例多样性）提供了实证依据，推动了文档自动化生成领域的发展。

实际应用

在实际应用中，TeXpert可助力科研工作者快速生成符合出版要求的LaTeX代码，显著降低文档排版的时间成本。例如，期刊投稿系统可集成基于该数据集优化的模型，自动将作者的自然语言描述转换为标准LaTeX格式。此外，教育领域可利用其评估学生使用LLMs辅助撰写学术论文的可行性，平衡效率与学术诚信。

数据集最近研究

最新研究方向

在科学文档排版领域，LaTeX因其精准性和灵活性成为学术界广泛采用的标准工具。随着大语言模型（LLM）在多模态任务中的突破性进展，TeXpert数据集的提出填补了自然语言指令生成LaTeX代码评估体系的空白。当前研究聚焦于三个前沿方向：首先，探索开源与闭源模型在复杂科学文档组件生成中的性能边界，其中DeepSeek系列模型展现出与GPT-4o相媲美的潜力；其次，针对逻辑错误和格式错误等核心问题，研究者正通过增强训练数据的LaTeX语法多样性来提升模型表现；最后，该数据集推动了新型评估范式的建立，其多难度层级设计为衡量模型在数学公式、表格、参考文献等专业场景的细粒度能力提供了标准化框架。这些进展不仅为自动化科研文档生成提供了技术支撑，更对学术诚信检测和智能排版系统的开发具有深远意义。

相关研究论文

1
TeXpert: A Multi-Level Benchmark for Evaluating LaTeX Code Generation by LLMsKnowledgeverse AI · 2025年

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作