Table2LaTeX
收藏arXiv2025-09-22 更新2025-09-24 收录
下载链接:
https://github.com/lingjun98/Tab2LaTeX
下载链接
链接失效反馈官方服务:
资源简介:
Table2LaTeX数据集是从arXiv上科学文档中收集的表格-LaTeX代码对,用于表格图像到LaTeX代码的生成任务。该数据集包含1209986个表格-LaTeX对,旨在帮助模型学习如何从图像中自动生成高质量的、可发表的表格代码。数据集被分为简单、中等和复杂三个子集,以适应不同复杂度的表格,并提供了细粒度的评估标准。
The Table2LaTeX dataset is a corpus of table-LaTeX code pairs collected from scientific documents on arXiv, designed for the table image-to-LaTeX code generation task. This dataset contains 1,209,986 table-LaTeX pairs, aiming to assist models in learning to automatically generate high-quality, publishable table code from images. The dataset is divided into three subsets: simple, medium, and complex, to accommodate tables of varying complexity, and provides fine-grained evaluation criteria.
提供机构:
浙江大学计算机科学与技术学院, 电子科技大学计算机科学与工程学院, 同济大学计算机科学与技术学院
创建时间:
2025-09-22
搜集汇总
数据集介绍

构建方式
Table2LaTeX数据集通过系统化流程从arXiv开放获取的科学文献中构建,利用网络爬虫提取LaTeX源码文件,并采用正则表达式精准捕获表格环境对应的代码片段。为确保数据质量,对提取的代码进行了深度清洗,移除了参考文献、颜色设置等非结构化的LaTeX控制命令,最终汇集了1,209,986对表格图像与LaTeX代码的对应样本。根据表格结构的复杂度,将包含2个及以上多行或多列合并命令且单元格数量在100至160之间的定义为中等复杂度表格,超过160个单元格的划分为复杂表格,其余则为简单表格,形成了层次分明的数据分类体系。
特点
该数据集显著特点在于其大规模与高复杂性,覆盖了从简单到复杂的多层级表格结构,尤其聚焦于科学文献中常见的嵌套表头、合并单元格及数学表达式等复杂布局。数据样本均源自真实的学术出版物,保证了表格内容的多样性与领域代表性。通过精确的复杂度标注,数据集为模型在复杂结构下的泛化能力评估提供了坚实基础,同时其高质量的LaTeX代码标注为高保真度表格重建任务设立了权威基准。
使用方法
数据集适用于监督微调与强化学习两阶段训练范式。在监督微调阶段,模型以表格图像及“转换为LaTeX”的提示词作为输入,以真实LaTeX代码为监督信号进行训练。在强化学习阶段,采用VSGRPO框架,通过双奖励机制联合优化结构准确性与视觉保真度:结构奖励基于LaTeX代码解析的TEDS-Structure指标,视觉奖励则通过编译生成的表格图像与真实图像间的CW-SSIM计算。评估时结合TEDS-Structure与CW-SSIM的混合指标,全面衡量生成代码的结构完整性与渲染效果。
背景与挑战
背景概述
Table2LaTeX数据集于2025年由浙江大学实验室与电子科技大学联合团队创建,旨在解决科学文档数字化过程中的表格图像自动转换难题。该数据集从arXiv开放获取平台系统性地采集了120余万组表格图像与LaTeX代码的对应关系,覆盖2017至2024年间多学科领域的学术文献。其核心研究问题聚焦于通过多模态大语言模型实现高保真的表格结构解析与代码生成,特别针对具有嵌套表头、合并单元格及数学内容等复杂结构的表格,为科学出版领域的自动化排版提供了重要技术支撑。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决复杂表格的视觉语义对齐难题,包括大规模表格的计算效率瓶颈、深层嵌套结构的逻辑关系推理以及LaTeX语法歧义性导致的编译错误。在构建过程中,面临arXiv原始数据清洗的复杂性,需要精准提取表格环境代码并过滤非结构元素,同时需设计基于\multirow和\multicolumn命令的复杂度分级标准。评估体系构建亦存在挑战,传统TEDS指标对LaTeX语法变体敏感度不足,而图像相似度度量需针对二值化表格特性优化CW-SSIM算法。
常用场景
经典使用场景
在科学文献数字化处理领域,Table2LaTeX数据集为表格图像到LaTeX代码的转换任务提供了关键支持。该数据集通过从arXiv论文中提取的120万组表格图像与LaTeX代码配对,专门用于训练和评估多模态大语言模型在复杂表格结构识别方面的能力。其典型应用场景包括学术文档的自动化重建,尤其擅长处理具有嵌套表头、合并单元格及数学公式的高复杂度表格,为科研工作者节省大量手动排版时间。
实际应用
在实际应用层面,Table2LaTeX数据集支撑的模型已展现出显著的工程价值。其生成的LaTeX代码可直接用于学术期刊排版系统,特别在处理交叉学科论文中的多维数据表格时,能保持专业出版级的格式精度。技术报告自动生成场景中,该系统可将扫描文档中的表格快速转换为可编辑的科研数据载体。此外,在科学数据仓储建设过程中,该技术能实现对历史文献表格的高保真数字化重构,为知识图谱构建提供结构化数据源。
衍生相关工作
基于该数据集衍生的VSGRPO强化学习框架,催生了多模态大模型在结构化文档生成领域的新范式。其双奖励机制设计启发了后续研究如VLM-R1等工作的视觉对齐策略,推动形成了以渲染质量为导向的代码生成评估体系。在模型架构层面,该工作验证了预训练MLLM在专业领域迁移的有效性,为Nougat、LATTE等端到端LaTeX生成模型提供了复杂度分级训练的重要参考。其构建的百万级科学表格语料库,更成为文档智能领域基准测试的核心资源。
以上内容由遇见数据集搜集并总结生成



