TableMoE-Align

Name: TableMoE-Align
Creator: 浙江大学计算机科学与技术学院
Published: 2025-06-26 23:41:34
License: 暂无描述

arXiv2025-06-26 更新2025-06-28 收录

下载链接：

https://github.com/ai-agi/TableMoE

下载链接

链接失效反馈

官方服务：

资源简介：

TableMoE-Align是一个大规模的数据集，包含120万个表格、HTML、JSON和代码四元组，涵盖金融、科学、生物医学和工业领域，专门用于模型预训练。该数据集支持有效的对齐驱动的预训练，并用于构建四个具有挑战性的WildStruct基准，以评估模型在实际多模态退化和结构复杂性条件下的鲁棒性。

TableMoE-Align is a large-scale dataset that contains 1.2 million four-tuples of tables, HTML, JSON, and code. Covering finance, science, biomedicine and industrial domains, it is specifically tailored for model pre-training. This dataset enables effective alignment-driven pre-training, and is employed to build four challenging WildStruct benchmarks for assessing model robustness under real-world multimodal degradation and structural complexity conditions.

提供机构：

浙江大学计算机科学与技术学院

创建时间：

2025-06-26

原始信息汇总

TableMoE数据集概述

基本信息

名称: TableMoE
开发机构: 浙江大学计算机科学与技术学院
联系人: junwen.agi@gmail.com
项目地址: https://ai-agi.github.io/TableMoE/

核心特点

架构: 基于Mixture-of-Connector-Experts (MoCE)架构的多模态大语言模型
功能: 支持表格编辑、高亮、重绘、转换及符号推理（CoT/PoT驱动）
技术亮点: 神经符号路由、专家组合、结构化数据对话能力
多模态支持: 文本、表格、图表、图像等多种格式理解

支持数据集

WMMFinanceMath
ChartQA
WMMTATQA
WMMTabDialog
WMMFinQA

兼容性

支持Llama 3.1和Qwen2.5-VL Transformer-based LLM骨干网络

快速开始

bash git clone https://github.com/ai-agi/TableMoE.git cd TableMoE bash scripts/alignment_table2code.sh

关键词

TableMoE, Neuro-Symbolic Routing, Table Reasoning, MoE, Multimodal, Table-Centric QA, Symbolic Graph Planning, Role Classification, Structural Alignment, LLMs, LMMs, LVLMs, Vision-Language Models, Structured Reasoning

搜集汇总

数据集介绍

构建方式

TableMoE-Align数据集是通过整合来自FinTabNet、PubTabNet、TableBank和WTW等多个来源的表格图像和数据构建而成。这些数据涵盖了广泛的表格结构和渲染噪声，确保了数据集的多样性和代表性。通过使用GPT-4o生成高质量的表格-HTML-JSON-代码四元组，数据集进一步丰富了其内容。最终，从生成的2.5M样本中精选了1.2M样本（600K HTML、400K JSON、200K代码）用于模型的预训练，确保了数据在结构和模态上的平衡。

特点

TableMoE-Align数据集具有1.2M规模的表格-HTML-JSON-代码四元组，覆盖了金融、科学、生物医学和工业等多个领域。其特点在于多模态对齐，每个专家（HTML、JSON、代码）通过不同的对齐任务进行预训练，从而捕获互补的表格语义。此外，数据集还包含了丰富的视觉和结构退化情况，如模糊、倾斜、水印和不完整结构，使其能够有效支持模型在真实场景中的鲁棒性和泛化能力。

使用方法

TableMoE-Align数据集主要用于模型的预训练阶段，通过多模态对齐任务（如表格到HTML、表格到JSON、表格到代码）来初始化专家模块。每个专家通过特定的对齐任务进行训练，以捕获不同的表格语义。预训练完成后，数据集还可用于评估模型在复杂表格理解和推理任务中的表现。此外，数据集支持神经符号路由机制的开发，通过预测潜在语义角色（如标题、数据单元格、轴、公式）来动态路由表格元素到专门的专家模块，从而实现结构化的推理。

背景与挑战

背景概述

TableMoE-Align是由浙江大学计算机科学与技术学院的研究团队于2025年提出的一个大规模多模态表格理解数据集。该数据集包含120万组表格-HTML-JSON-代码四元组，覆盖金融、科学、生物医学和工业等多个领域，专门用于模型预训练。数据集的创建旨在解决真实场景中表格结构复杂、符号密集和视觉退化（如模糊、倾斜、水印、不完整结构或字体、多跨或分层嵌套布局）等问题。TableMoE-Align为TableMoE模型的神经符号混合专家架构提供了必要的训练数据，显著提升了模型在复杂表格理解任务中的性能。

当前挑战

TableMoE-Align面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集旨在解决真实场景中表格的多模态理解问题，包括结构复杂性、符号密集性和视觉退化等，这些因素使得现有多模态大语言模型（MLLMs）在WildStruct条件下的表现受限。在构建过程中，挑战包括处理大规模表格数据的多样性和复杂性，确保数据的高质量和一致性，以及生成准确的HTML、JSON和代码表示。此外，数据集还需要覆盖多个领域，以确保模型的泛化能力。

常用场景

经典使用场景

TableMoE-Align数据集在多模态表格理解领域具有广泛的应用场景。该数据集特别适用于处理真实世界中结构复杂、符号密集且视觉退化的表格数据，如金融报表、科学文献和工业文档中的表格。通过其独特的神经符号路由机制，TableMoE能够将表格元素动态分配给专门的专家（如Table-to-HTML、Table-to-JSON、Table-to-Code），从而实现对多模态表格的鲁棒理解和结构化推理。

实际应用

在实际应用中，TableMoE-Align数据集为金融、科学、生物医学和工业领域的多模态表格处理提供了强大支持。例如，在金融领域，该数据集可用于自动解析复杂的财务报表；在科学研究中，它能够帮助研究人员从视觉退化的表格中提取关键数据；在生物医学领域，该数据集支持对结构复杂的实验数据表格进行高效解析和推理。

衍生相关工作

TableMoE-Align数据集衍生了一系列相关研究工作，特别是在多模态表格理解和神经符号推理领域。例如，基于该数据集的研究提出了WildStruct基准测试，包括WMMFinQA、WMMTatQA、WMMTabDialog和WMMFinanceMath，这些基准专门用于评估模型在真实世界多模态退化和结构复杂性下的表现。此外，该数据集还启发了对神经符号混合专家（MoE）架构的进一步探索，特别是在表格结构解析和符号推理方面的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集